Исследование способностей ИИ ориентироваться в уголовно-процессуальном законодательстве

Протестировал 10 моделей ИИ на способность ориентироваться в уголовно-процессуальном праве России. Рассказываю, как тестировал и что получилось.

Зачем я это сделал

Юристы часто спорят об искусственном интеллекте. Одни говорят: "ИИ заменит юристов". Другие: "ИИ - это калькулятор и умный поиск, он не способен работать с юридическими задачами".

Я решил проверить, как современные модели могут ориентироваться в российском процессуальном законодательстве, в частности уголовно-правовом.

Взял узкоспециализированную тему - разграничение обыска, осмотра места происшествия и оперативно-розыскного мероприятия "обследование помещений, зданий, сооружений, участков местности и транспортных средств".

Порядок проведения данных мероприятий имеет множество нюансов, их детальное разграничение требует узкоспециализированных познаний и может вызывать сложности даже у опытных юристов.

Как я тестировал

Подготовил единый запрос с 10 вопросами о различиях между процессуальными действиями. Каждый вопрос разбил на три аспекта. Всего получилось 30 критериев оценки.

Протестировал популярные модели ИИ: ChatGPT (версии 1о и 4о), Claude (версии 3.5 Sonnet и Opus), Scholar GPT, Yandex GPT, GigaChat, Deepseek, Gemini 2.0 Flash, Perplexity

Важно: каждая модель получила только одну попытку ответить. Без уточняющих вопросов и диалога. Так я смог объективно сравнить их возможности.

Что я выяснил. Результаты.

Лучшие результаты показали:

➔ Claude 3.5 Sonnet — 91,7% правильных ответов

➔ ChatGPT4o — 90% правильных ответов

➔ Scholar GPT — 83,3% правильных ответов

Это при условии, что в данные модели ИИ были подгружены актуальные нормативно-правовые акты по теме тестирования.

Впечатления от лучшего ответа

В рамках моего исследования я был особенно впечатлен работой Claude 3.5 Sonnet.

Для тестирования я предоставил этой модели актуальные нормативно-правовые акты и пользовательскую инструкцию по работе с источниками в рамках функции "Проекты".

Результаты удивили - модель дала 91,7% правильных ответов.

Особенно важно отметить, что она не допустила ни одной серьезной ошибки и корректно ссылалась на правовые нормы при обосновании каждого аспекта процессуальных действий.

Однако максимальную оценку модель не получила по двум причинам.

Во-первых, некоторые ответы требовали дополнительных уточнений, поскольку правильный ответ мог варьироваться в зависимости от конкретных обстоятельств проведения того или иного действия. Но методология исследования не предусматривала возможность задавать дополнительные вопросы.

Во-вторых, часть вопросов затрагивала дискуссионные юридические аспекты, по которым даже среди профессионалов нет единого мнения.

Учитывая ограничения методологии исследования и дискуссионность некоторых поставленных перед ИИ вопросов, результат работы Claude 3.5 Sonnet можно считать превосходным.

Модель в рамках исследования смогла сориентироваться в нормах права на экспертном уровне и предоставила правильные ответы за считанные секунды.

С полным ответом модели и моими комментариями к нему можно ознакомиться в приложении к исследованию.

По итогам исследования я пришел к некоторым ключевым выводам.

1. Современные ИИ-модели могут эффективно анализировать процессуальное законодательство

Современные ИИ-модели, такие как Claude 3.5 Sonnet и ChatGPT-4, эффективно анализируют уголовно-процессуальное законодательство, показывая точность ответов выше 90%.

Для их максимальной эффективности важно правильно формулировать запросы, давать точные пользовательские инструкции по работе с источниками и формату ответов.

2. Доступ ИИ к актуальным законам критически важен: точность ответов сильно повышается

Claude 3.5 Sonnet и ChatGPT-4 улучшили результаты на 13%, Scholar GPT — на 21,6%.

Оптимальное решение - напрямую предоставлять ИИ актуальные нормы права.

3. Интернет-поиск не помогает

Интересно, что доступ к интернет-поиску не привел к значительному улучшению результатов. Несмотря на заданные инструкции, модели в рамках поиска часто обращались к непрофильным ресурсам (статьям Дзен, ВК и т.д.), что в итоге снижало качество их ответов.

4. ИИ может являться вспомогательным инструментом в юридической практике

В результате проведенного исследования я пришел к выводу, что ИИ может использоваться в юридической практике, как эффективный вспомогательный инструмент.

Однако важно понимать, что эффективность работы ИИ напрямую зависит от двух ключевых факторов: точности сформулированных пользователем запросов и инструкций, а также актуальности и полноты предоставленной нормативной базы. Существенным ограничением является и то, что ИИ не всегда способен учитывать сложные контексты и специфические нюансы правоприменительной практики.

Качество и применимость ответов ИИ в значительной степени определяется работой оператора - профессионального юриста, который взаимодействует с системой. Именно специалист способен сначала правильно поставить вопросы, а затем корректно оценить актуальность и практическую применимость полученных от ИИ ответов и рекомендаций.

При этом использование ИИ в юридической сфере требует обязательной проверки всех полученных результатов квалифицированными специалистами перед их практическим применением.

При таком подходе ИИ-модели могут существенно повысить эффективность работы юристов, выполняя важные вспомогательные функции в их профессиональной деятельности.

➟ С полным текстом исследования и его результатами, а также моими заметками об использовании ИИ в юридической практике можете ознакомиться в моем телеграм-канале Юристы & Нейросети по ссылке.

t.me

Юристы & Нейросети

Исследование способностей ИИ ориентироваться в уголовно-процессуальном законодательстве

Главные выводы