Как LLM могут бороться со своими же галлюцинациями
Галлюцинации — ахиллесова пята ИИ. Проверка достоверности “фактов” ИИ (с помощью того же поисковика) — несложная задача (учитывая, что уже сейчас ИИ может решать задачи не хуже человека, делать изобретения и ускорять научные открытия), и наконец такой способ нашелся. Разработана модель с говорящим названием “SAFE” (безопасность, Search-Augmented Factuality Evaluator, оценщик фактов с расширенным поиском).
Как работает модель?
1) Создание модели для фактчекинга - LongFact. Для ее создания воспользовались GPT-4 для создания набора подсказок, включающего тысячи вопросов, охватывающих 38 тем. Для каждой темы было создано по 30 промтов, итого 1140.
2) Оценка качества ответов с помощью модели SAFE. Используется большая языковая модель, чтобы разбить ответ на набор отдельных фактов и затем оценить точность каждого, отправив его на проверку в поисковик Google. Ответ на промпт (запрос) мог быть релевантным, нерелевантным, и каждый релевантный ответ оценивался как "поддерживаемый" и "неподдерживаемый" фактами. Также оценка качества модели учитывает процент подтвержденных фактов в ответе (точность) и долю ответов с предпочтительной длиной ответа для пользователя.
Насколько хороша модель?
Известно, что альтернативным способом проверки является использование людей - аннотаторов, которые были набраны путем краудсорсинга. Именно с результатами “ручной” проверки сравнили модель SAFE по набору из примерно 16 тыс. отдельных фактов:
- в 72% случаев оценки SAFE совпали с оценками людей-аннотаторов,
- для оценки качества аннотации провели оценку случайной подвыборки в 100 случаев, где были разногласия в оценках SAFE и людей. SAFE выигрывает в 76% случаев (в 19% случаев выиграл человек, в 5% была ничья),
- SAFE более чем в 20 раз дешевле, чем люди-аннотаторы (4$ против $0,19 машинного).
Какой еще вывод можно сделать?
Более крупные большие языковые модели обеспечивают лучшую фактологичность ответов. Создатели модели также протестировали 13 языковых моделей в четырех семействах моделей (Gemini, GPT, Claude и PaLM-2), Для оценки моделей использовалась случайная подвыборка из 250 фактов.
Так ли хороша модель?
Конечно, есть ограничения и узкие места, и разработчики это прекрасно понимают.Так, SAFE полагается на поиск Google как источник знаний, и этого может быть недостаточно в отдельных случаях. Например, Google Search может не хватать глубины в экспертных областях, таких как юриспруденция и медицина.
В то же время есть утверждения глобально фактологические и нефактологические, поэтому утверждения в исследовании маркировались как «поддерживаемые» или «неподдерживаемые» в результатах поиска Google.
И конечно, можно повышать точность, скорость и полезность ответов модели.