Галлюцинации в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM)

Ключевые моменты в обзорной статье о галлюцинациях в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM):

1. Галлюцинации в MLLM относятся к генерации моделью текстовых ответов, которые не соответствуют предоставленному визуальному контенту. Это серьёзная проблема, препятствующая практическому развёртыванию MLLM.

2. Галлюцинации можно эмпирически разделить на три типа: галлюцинации категорий, галлюцинации атрибутов и галлюцинации отношений.

3. Причины галлюцинаций многогранны и охватывают данные, архитектуру модели, процесс обучения и этап вывода. Ключевые причины включают недостаточные и низкокачественные данные, слабые модели компьютерного зрения, предшествующие знания языковой модели, плохое кросс-модальное согласование и проблемы вывода.

4. Были предложены различные эталонные тесты (benchmarks) и метрики для оценки галлюцинаций, такие как CHAIR, POPE, GAVIE, AMBER и др. Они охватывают как дискриминативные, так и генеративные задачи.

5. Методы уменьшения галлюцинаций направлены на решение проблем с данными, моделью, обучением и выводом. Ключевые подходы включают аугментацию и калибровку данных, увеличение масштаба визуальных энкодеров, разработку специализированных модулей, вспомогательный надзор (auxiliary supervision), обучение с подкреплением и методы вывода, такие как контрастное декодирование.

6. Проблемы и будущие направления включают качество и разнообразие данных, улучшение кросс-модального согласования, совершенствование архитектур моделей, создание стандартизированных тестовых заданий (benchmarks), переосмысление галлюцинаций как особенности, повышение интерпретируемости и учёт этических соображений.

7. Обзор предоставляет исчерпывающую таксономию и обзор причин галлюцинаций, эталонов оценки и методов уменьшения, чтобы углубить понимание и вдохновить дальнейшие исследования в этой области.

В целом, этот тщательный обзор подробно рассматривает феномен галлюцинаций в MLLM, охватывая причины, оценку, подходы к уменьшению и перспективы на будущее, чтобы продвинуть исследования по улучшению надёжности и устойчивости MLLM.

Галлюцинации в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM)

Краткие описания каждого эталонного теста (benchmark) для оценки галлюцинаций, упомянутого в тексте:

CHAIR: Вычисляет долю негаллюцинирующих слов в сгенерированных подписях к изображениям.
POPE: Преобразует оценку галлюцинаций в задачу бинарной классификации с помощью вопросов типа "Да/Нет" об объектах. Включает 500 изображений MSCOCO.
MME: Охватывает 14 подзадач, включая наличие объектов, их количество, положение, цвет в формате "Да/Нет".
CIEM: Автоматически генерирует пары "вопрос-ответ" с помощью LLM для оценки галлюцинаций.
MMHal-Bench: Имеет 96 пар "изображение-вопрос" по 8 типам вопросов для оценки галлюцинаций. Использует GPT-4 для оценки ответов.
GAVIE: Использует GPT-4 для оценки релевантности выходных данных MLLM инструкциям и точности визуальных галлюцинаций в открытой форме.
NOPE: Фокусируется на различении галлюцинаций объектов и неверных ответов в VQA, когда правильный ответ - отрицательное местоимение. Предоставляет более сбалансированные данные.
HaELM: Обучает специализированную LLM для обнаружения галлюцинаций, используя данные от различных MLLM.
FaithScore: Разбивает свободные ответы MLLM на открытые вопросы и оценивает подробные категории галлюцинаций, такие как сущности, количество, цвет, отношения.
Bingo: Анализирует ограничения MLLM на 190 примерах неудач и 131 примере успеха, выявляя феномены предвзятости и интерференции.
AMBER: Оценивает как генеративные, так и дискриминативные задачи MLLM на галлюцинациях наличия объектов, атрибутов и отношений. Объединяет метрики CHAIR и F1.
RAH-Bench: Расширяет POPE до 3000 вопросов типа "Да/Нет", дополнительно разделяя отрицательные ответы на категориальные, атрибутивные и реляционные галлюцинации.
HallusionBench: Использует 455 управляющих пар "изображение-вопрос" для диагностики MLLM на визуально-зависимых и дополнительных вопросах.
CCEval: Фокусируется на детальных галлюцинациях в подписях, используя 100 изображений Visual Genome. Добавляет метрику покрытия для поощрения более длинных информативных подписей.
MERLIM: Тестирует MLLM на распознавание объектов, подсчёт, отношения с помощью 279 тыс. пар "изображение-вопрос". Использует отредактированные изображения для обнаружения кросс-модальных галлюцинаций.
FGHE: Оценивает детальные галлюцинации с помощью бинарных вопросов об отношениях, атрибутах и поведении объектов.
OpenCHAIR: Расширяет CHAIR для открытых словарных настроек, используя синтетические изображения и LLM для идентификации галлюцинирующих объектов.
Hal-Eval: Оценивает галлюцинации событий, связанные с выдуманными нарративами. Предоставляет подмножества для дискриминативной и генеративной оценки.
CorrelationQA: Количественно оценивает галлюцинации, вызванные ложными, но высоко релевантными визуальными входными данными.
VQAv2-IDK: Оценивает предвзятость галлюцинаций типа IK ("Я знаю"), когда MLLM должны отвечать "Я не знаю". Делит на 4 типа.
MHaluBench: Оценивает инструменты обнаружения галлюцинаций, а не сами MLLM, используя проверку кросс-модальной согласованности.
VHTest: Определяет 8 подробных режимов визуальных галлюцинаций на основе индивидуальных и групповых свойств объектов. Имеет 1200 открытых и бинарных примеров.

Галлюцинации в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM)

Бенчмарки и метрики галюцинаций MLLM