Галлюцинации в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM)
Ключевые моменты в обзорной статье о галлюцинациях в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM):
1. Галлюцинации в MLLM относятся к генерации моделью текстовых ответов, которые не соответствуют предоставленному визуальному контенту. Это серьёзная проблема, препятствующая практическому развёртыванию MLLM.
2. Галлюцинации можно эмпирически разделить на три типа: галлюцинации категорий, галлюцинации атрибутов и галлюцинации отношений.
3. Причины галлюцинаций многогранны и охватывают данные, архитектуру модели, процесс обучения и этап вывода. Ключевые причины включают недостаточные и низкокачественные данные, слабые модели компьютерного зрения, предшествующие знания языковой модели, плохое кросс-модальное согласование и проблемы вывода.
4. Были предложены различные эталонные тесты (benchmarks) и метрики для оценки галлюцинаций, такие как CHAIR, POPE, GAVIE, AMBER и др. Они охватывают как дискриминативные, так и генеративные задачи.
5. Методы уменьшения галлюцинаций направлены на решение проблем с данными, моделью, обучением и выводом. Ключевые подходы включают аугментацию и калибровку данных, увеличение масштаба визуальных энкодеров, разработку специализированных модулей, вспомогательный надзор (auxiliary supervision), обучение с подкреплением и методы вывода, такие как контрастное декодирование.
6. Проблемы и будущие направления включают качество и разнообразие данных, улучшение кросс-модального согласования, совершенствование архитектур моделей, создание стандартизированных тестовых заданий (benchmarks), переосмысление галлюцинаций как особенности, повышение интерпретируемости и учёт этических соображений.
7. Обзор предоставляет исчерпывающую таксономию и обзор причин галлюцинаций, эталонов оценки и методов уменьшения, чтобы углубить понимание и вдохновить дальнейшие исследования в этой области.
В целом, этот тщательный обзор подробно рассматривает феномен галлюцинаций в MLLM, охватывая причины, оценку, подходы к уменьшению и перспективы на будущее, чтобы продвинуть исследования по улучшению надёжности и устойчивости MLLM.
Бенчмарки и метрики галюцинаций MLLM
Краткие описания каждого эталонного теста (benchmark) для оценки галлюцинаций, упомянутого в тексте:
- CHAIR: Вычисляет долю негаллюцинирующих слов в сгенерированных подписях к изображениям.
- POPE: Преобразует оценку галлюцинаций в задачу бинарной классификации с помощью вопросов типа "Да/Нет" об объектах. Включает 500 изображений MSCOCO.
- MME: Охватывает 14 подзадач, включая наличие объектов, их количество, положение, цвет в формате "Да/Нет".
- CIEM: Автоматически генерирует пары "вопрос-ответ" с помощью LLM для оценки галлюцинаций.
- MMHal-Bench: Имеет 96 пар "изображение-вопрос" по 8 типам вопросов для оценки галлюцинаций. Использует GPT-4 для оценки ответов.
- GAVIE: Использует GPT-4 для оценки релевантности выходных данных MLLM инструкциям и точности визуальных галлюцинаций в открытой форме.
- NOPE: Фокусируется на различении галлюцинаций объектов и неверных ответов в VQA, когда правильный ответ - отрицательное местоимение. Предоставляет более сбалансированные данные.
- HaELM: Обучает специализированную LLM для обнаружения галлюцинаций, используя данные от различных MLLM.
- FaithScore: Разбивает свободные ответы MLLM на открытые вопросы и оценивает подробные категории галлюцинаций, такие как сущности, количество, цвет, отношения.
- Bingo: Анализирует ограничения MLLM на 190 примерах неудач и 131 примере успеха, выявляя феномены предвзятости и интерференции.
- AMBER: Оценивает как генеративные, так и дискриминативные задачи MLLM на галлюцинациях наличия объектов, атрибутов и отношений. Объединяет метрики CHAIR и F1.
- RAH-Bench: Расширяет POPE до 3000 вопросов типа "Да/Нет", дополнительно разделяя отрицательные ответы на категориальные, атрибутивные и реляционные галлюцинации.
- HallusionBench: Использует 455 управляющих пар "изображение-вопрос" для диагностики MLLM на визуально-зависимых и дополнительных вопросах.
- CCEval: Фокусируется на детальных галлюцинациях в подписях, используя 100 изображений Visual Genome. Добавляет метрику покрытия для поощрения более длинных информативных подписей.
- MERLIM: Тестирует MLLM на распознавание объектов, подсчёт, отношения с помощью 279 тыс. пар "изображение-вопрос". Использует отредактированные изображения для обнаружения кросс-модальных галлюцинаций.
- FGHE: Оценивает детальные галлюцинации с помощью бинарных вопросов об отношениях, атрибутах и поведении объектов.
- OpenCHAIR: Расширяет CHAIR для открытых словарных настроек, используя синтетические изображения и LLM для идентификации галлюцинирующих объектов.
- Hal-Eval: Оценивает галлюцинации событий, связанные с выдуманными нарративами. Предоставляет подмножества для дискриминативной и генеративной оценки.
- CorrelationQA: Количественно оценивает галлюцинации, вызванные ложными, но высоко релевантными визуальными входными данными.
- VQAv2-IDK: Оценивает предвзятость галлюцинаций типа IK ("Я знаю"), когда MLLM должны отвечать "Я не знаю". Делит на 4 типа.
- MHaluBench: Оценивает инструменты обнаружения галлюцинаций, а не сами MLLM, используя проверку кросс-модальной согласованности.
- VHTest: Определяет 8 подробных режимов визуальных галлюцинаций на основе индивидуальных и групповых свойств объектов. Имеет 1200 открытых и бинарных примеров.