o3-mini-high показала 0,8% галлюцинаций — исторический минимум среди LLM
И это прорыв: раньше ни одна модель не опускалась ниже 1%. Для сравнения, популярная GPT-4o выдает ошибки в 1,5% случаев, DeepSeek-V3 — в 3,9%, o1 — в 2,4%. Разница колоссальная. LLM (они же нейронки) очень любят уверенно нести бред — именно это и называют галлюцинациями. Они придумывают факты, искажают данные и выдают ложь за истину — причем делают это так убедительно, что если вы не разбираетесь в теме, то даже не заподозрите подвох. Метрика «процент галлюцинаций» звучит просто, но измерить ее — та еще задача. Часто нейросети оценивают друг друга, создавая эффект «эхо-камеры» и сомнительные результаты. Vectara, на чьем лидерборде основаны данные, использует другой метод: HHEM-2.0. Эта модель проверяет текст напрямую, сверяя его с источниками. Если раньше нейросетям можно было доверять на уровне гадалки, то теперь — почти как проверенной энциклопедии. Конечно, 0,8% не равно нулю ошибок, но это огромный шаг вперед.
--- Больше новостей в телеграм канале NeuroTrends | Ai News 🙀 Шедевры ИИ | нейросети | нейротренды | искусственный интеллект | ChatGPT | Midjourney | только лучшее 🎸🔥 Подпишись в Телеграм и будь в тренде: https://t.me/+irzVxDGf1wNjYjAy