Большие языковые модели продолжают галлюцинировать, и количество галлюцинаций ошеломляет
Когда на рынке появились первые большие языковые модели (LLM), они поразили пользователей своим красноречием и широтой знаний. Однако вскоре выяснилось, что LLM часто «галлюцинируют», с уверенностью всезнайки выдавая придуманные на ходу факты и цифры.
По мере роста числа LLM, сопровождающегося разрастанием обучающих корпусов и команд специалистов по обучению ИИ, нас уверяли что уровень галлюцинаций снижается. Но так ли это? И даже если галлюцинаций стало меньше — они все-таки случаются: свойство больших языковых моделей уверенно сообщать ложную информацию вместо признания своего невежества известно.
Что ж, есть способ все посчитать. Группа исследователей из Вашингтонского университета разработала HALoGEN (evaluating HALlucinations of GENeration models) — комплексную методику сравнительного анализа для изучения и измерения галлюцинаций (утверждений, не имеющих отношения к реальности) в больших языковых моделях (https://arxiv.org/abs/2501.08292). Она состоит из почти 11 тысяч промптов для генеративных моделей в девяти предметных областях, включая программирование, научную атрибуцию и обобщение. Также разработаны и сделаны общедоступными автоматические высокоточные верификаторы для каждого случая использования, что позволяет оценивать фактическую достоверность ответов языковых моделей.
Авторы методики вводят три класса ошибок галлюцинации:
Тип A: когда правильный факт присутствует в данных предварительного обучения, но модель все равно галлюцинирует.
Тип B: когда в обучающих данных присутствуют неправильные факты или когда факты вырваны из контекста.
Тип C: когда в обучающих данных не присутствуют ни правильные, ни неправильные факты, что приводит к чрезмерному обобщению при составлении моделью ответа.
Исходя из этой классификации, исследователи определили три ключевых параметра — доля неверных ответов (hallucination score), доля ответов (response ratio) и средняя полезность ответов (average utility of model responses) — и измерили их в широком диапазоне тестовых случаев и моделей. Прежде чем перейти к таблицам результатов, дадим определения этих параметров простым языком:
Доля неверных ответов — общее среднее значение доли не подтвержденных фактически компонентов в ответе модели. Этот параметр оценивает, насколько часто модель выдает информацию, которая не подтверждена ни обучающими данными, ни внешними источниками.
Доля ответов — средняя частота, с которой модель вообще отвечает на вопрос. Эта метрика полезна для оценки отзывчивости модели, особенно в ситуациях, когда критически важна генерация достоверного ответа.
Средняя полезность ответов объединяет точность/адекватность и соответствие задаче при обработке исходных тестовых данных. Она оценивает эффективность балансирования модели между предоставлением правильных ответов и отказом от ответов, когда это необходимо. Таким образом, галлюцинирование и поведение, связанное с ответом/отказом, учитываются одновременно. Высокая оценка полезности указывает на то, что модель работает хорошо, давая точные ответы, когда это необходимо, и отказываясь отвечать при отсутствии достаточно достоверной информации. И наоборот, низкая оценка полезности говорит о том, что модель выдает слишком много галлюцинаций в ответах или не отказывается от ответа, когда следует.
Теперь вы можете изучить таблицы 2 и 3, где эти параметры рассчитаны для нескольких известных моделей.
Исследователи протестировали 14 больших языковых моделей, включая GPT-4, несколько версий Llama, Alpaca, Mistral и другие, оценив в общей сложности 150 000 ответов. То, что они обнаружили, шокирует: даже самые лучшие модели часто галлюцинируют, а в некоторых областях до 86% сгенерированных ответов содержат ошибки, особенно в задачах на отказ отвечать.
В тестах с вопросами, ответы на которые содержатся в обучающем корпусе, даже лучшие языковые модели имеют коэффициент галлюцинаций не менее 0,3, то есть 30% ответов гарантированно будут ошибочными (или будут ошибочными на треть, поскольку коэффициент анализирует элементарные факты, из которых состоит ответ).
В категориях вопросов, не имеющих ответа в обучающем корпусе, все LLM с трудом удерживаются от ответа, и для таких категорий вопросов доля галлюцинаций особенно высока — от 76% до 86%.
Вдумайтесь: бытует заблуждение, что если предоставить языковой модели большой объем данных, то она волшебным образом извлечет информацию из обучающего корпуса и на ее основе выведет правильный ответ, даже если его нет в предоставленных данных. Обыватель убежден, что большие языковые модели –– это мыслящие машины, которые обрабатывают обучающие данные и дают исключительно правильные ответы на этой основе. Однако исследование показывает, что в реальности модель будет галлюцинировать в 30% случаев, даже если нужная информация присутствует в обучающем корпусе. Более того, если нужная информация в обучающем корпусе отсутствует, вероятность того, что ответ модели будет правильным, составляет менее 25%.
Этот тип ошибок, вызванный просто-напросто тем, что LLM на самом деле не думают, т. е. отсутствием у них интеллекта, также проявляется в задачах на реферирование, где 83% галлюцинаций возникают из-за того, что модель неправильно обрабатывает предоставленный контекст. Это говорит о том, что проблема не обязательно связана с обеспечением фактической точности учебных материалов, а кроется в самом принципе работы модели.
Когда перед большими языковыми моделями ставится задача написать программный код и они выдают программные пакеты с галлюцинациями, то в основном это галлюцинации типа B. Так происходит потому, что ошибки присутствуют в обучающих материалах, причем количество галлюцинаций, взятых из обучающих материалов, достигает 72%.
Методика HALoGEN станет ценным дополнением в инструментарии исследователей искусственного интеллекта и поможет охладить головы энтузиастов применения LLM в реальных приложениях. Она демонстрирует, что большие языковые модели не являются непогрешимым источником истины; реальность гораздо прозаичнее.
Ключевые выводы по результатам исследования
- Не ждите от больших языковых моделей точных ответов, даже если их обучали на данных высокого качества.
- Осознайте, что способность языковых моделей к правильному обобщению на самом деле весьма ограниченна: если ответ не содержится в обучающих материалах, вероятность того, что он будет сгенерирован, составляет менее 25% (!).
- Никогда не принимайте ответы больших языковых моделей за чистую монету. Всегда проверяйте корректность и правильность ответа, контролируйте и тестируйте полученные ответы.
- Поймите, что ответы языковых моделей генерируются на основе огромных массивов данных, и у галлюцинаций нет одной конкретной причины, которую можно было бы легко выявить и устранить, они вызваны фундаментальными принципом работы LLM.
Не кажется ли вам, что эти выводы способны изменить излишне оптимистичный взгляд на применение больших языковых моделей в реальном мире?
Нам вот кажется.