Исследование способностей ИИ ориентироваться в уголовно-процессуальном законодательстве
Протестировал 10 моделей ИИ на способность ориентироваться в уголовно-процессуальном праве России. Рассказываю, как тестировал и что получилось.
Зачем я это сделал
Юристы часто спорят об искусственном интеллекте. Одни говорят: "ИИ заменит юристов". Другие: "ИИ - это калькулятор и умный поиск, он не способен работать с юридическими задачами".
Я решил проверить, как современные модели могут ориентироваться в российском процессуальном законодательстве, в частности уголовно-правовом.
Взял узкоспециализированную тему - разграничение обыска, осмотра места происшествия и оперативно-розыскного мероприятия "обследование помещений, зданий, сооружений, участков местности и транспортных средств".
Порядок проведения данных мероприятий имеет множество нюансов, их детальное разграничение требует узкоспециализированных познаний и может вызывать сложности даже у опытных юристов.
Как я тестировал
Подготовил единый запрос с 10 вопросами о различиях между процессуальными действиями. Каждый вопрос разбил на три аспекта. Всего получилось 30 критериев оценки.
Протестировал популярные модели ИИ: ChatGPT (версии 1о и 4о), Claude (версии 3.5 Sonnet и Opus), Scholar GPT, Yandex GPT, GigaChat, Deepseek, Gemini 2.0 Flash, Perplexity
Важно: каждая модель получила только одну попытку ответить. Без уточняющих вопросов и диалога. Так я смог объективно сравнить их возможности.
Что я выяснил. Результаты.
Лучшие результаты показали:
➔ Claude 3.5 Sonnet — 91,7% правильных ответов
➔ ChatGPT4o — 90% правильных ответов
➔ Scholar GPT — 83,3% правильных ответов
Это при условии, что в данные модели ИИ были подгружены актуальные нормативно-правовые акты по теме тестирования.
Впечатления от лучшего ответа
В рамках моего исследования я был особенно впечатлен работой Claude 3.5 Sonnet.
Для тестирования я предоставил этой модели актуальные нормативно-правовые акты и пользовательскую инструкцию по работе с источниками в рамках функции "Проекты".
Результаты удивили - модель дала 91,7% правильных ответов.
Особенно важно отметить, что она не допустила ни одной серьезной ошибки и корректно ссылалась на правовые нормы при обосновании каждого аспекта процессуальных действий.
Однако максимальную оценку модель не получила по двум причинам.
Во-первых, некоторые ответы требовали дополнительных уточнений, поскольку правильный ответ мог варьироваться в зависимости от конкретных обстоятельств проведения того или иного действия. Но методология исследования не предусматривала возможность задавать дополнительные вопросы.
Во-вторых, часть вопросов затрагивала дискуссионные юридические аспекты, по которым даже среди профессионалов нет единого мнения.
Учитывая ограничения методологии исследования и дискуссионность некоторых поставленных перед ИИ вопросов, результат работы Claude 3.5 Sonnet можно считать превосходным.
Модель в рамках исследования смогла сориентироваться в нормах права на экспертном уровне и предоставила правильные ответы за считанные секунды.
С полным ответом модели и моими комментариями к нему можно ознакомиться в приложении к исследованию.
Главные выводы
По итогам исследования я пришел к некоторым ключевым выводам.
1. Современные ИИ-модели могут эффективно анализировать процессуальное законодательство
Современные ИИ-модели, такие как Claude 3.5 Sonnet и ChatGPT-4, эффективно анализируют уголовно-процессуальное законодательство, показывая точность ответов выше 90%.
Для их максимальной эффективности важно правильно формулировать запросы, давать точные пользовательские инструкции по работе с источниками и формату ответов.
2. Доступ ИИ к актуальным законам критически важен: точность ответов сильно повышается
Claude 3.5 Sonnet и ChatGPT-4 улучшили результаты на 13%, Scholar GPT — на 21,6%.
Оптимальное решение - напрямую предоставлять ИИ актуальные нормы права.
3. Интернет-поиск не помогает
Интересно, что доступ к интернет-поиску не привел к значительному улучшению результатов. Несмотря на заданные инструкции, модели в рамках поиска часто обращались к непрофильным ресурсам (статьям Дзен, ВК и т.д.), что в итоге снижало качество их ответов.
4. ИИ может являться вспомогательным инструментом в юридической практике
В результате проведенного исследования я пришел к выводу, что ИИ может использоваться в юридической практике, как эффективный вспомогательный инструмент.
Однако важно понимать, что эффективность работы ИИ напрямую зависит от двух ключевых факторов: точности сформулированных пользователем запросов и инструкций, а также актуальности и полноты предоставленной нормативной базы. Существенным ограничением является и то, что ИИ не всегда способен учитывать сложные контексты и специфические нюансы правоприменительной практики.
Качество и применимость ответов ИИ в значительной степени определяется работой оператора - профессионального юриста, который взаимодействует с системой. Именно специалист способен сначала правильно поставить вопросы, а затем корректно оценить актуальность и практическую применимость полученных от ИИ ответов и рекомендаций.
При этом использование ИИ в юридической сфере требует обязательной проверки всех полученных результатов квалифицированными специалистами перед их практическим применением.
При таком подходе ИИ-модели могут существенно повысить эффективность работы юристов, выполняя важные вспомогательные функции в их профессиональной деятельности.
➟ С полным текстом исследования и его результатами, а также моими заметками об использовании ИИ в юридической практике можете ознакомиться в моем телеграм-канале Юристы & Нейросети по ссылке.