Оценка больших языковых моделей в 2025 году: пять методов

Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку:

Компании должны выбирать генеративные AI-модели для внедрения в работу. Базовых моделей LLM сейчас множество, и для каждой есть различные их модификации.
После выбора модели будет проходить fine-tuning. И если производительность модели не измерена с достаточной точностью, пользователи не смогут оценить эффективность своих усилий.

Таким образом, необходимо определить:

Оптимальные методы оценки моделей
Подходящий тип данных для обучения и тестирования моделей

Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения.

Рассмотрим предприятие, которому необходимо выбрать базовую генеративную модель среди нескольких. Эти модели должны быть протестированы, чтобы определить, насколько качественно они генерируют текст и реагируют на вводные данные. Производительность может измеряться по таким метрикам, как точность (accuracy), плавность (fluency), когерентность (coherence) и релевантность содержанию (subject relevance).

С появлением крупных мультимодальных моделей компании также могут оценивать модели, работающие с разными типами данных (изображения, текст, аудио), что расширяет функциональные возможности генеративного ИИ.

Например, предприятие может провести fine-tuning модели для повышения её эффективности в решении задач, специфичных для отрасли. Оценочная методология позволяет исследователям и разработчикам сравнивать модели LLM и отслеживать прогресс, что помогает в выборе наиболее подходящей модели для конкретного применения.

Модели LLM наследуют AI-bias из данных, на которых они обучены. Комплексная оценочная методология помогает выявлять и измерять bias (искажение) в результатах запросов, что позволяет исследователям разрабатывать стратегии для их обнаружения и снижения их количества. Это также помогает учитывать другие риски, связанные с работой генеративных моделей ИИ.

Оценка удовлетворенности пользователей и уровня доверия критически важна при тестировании генеративных языковых моделей. Анализируются такие параметры, как релевантность, когерентность и разнообразие (diversity) генерируемого контента, чтобы убедиться, что модели соответствуют ожиданиям пользователей и вызывают у них доверие. Эта методология помогает понять уровень удовлетворенности пользователей и степень доверия к ответам модели.

Обзор процесса сравнения и бенчмаркинга для больших языковых моделей:

Для комплексной оценки производительности языковой модели часто требуется использовать комбинацию бенчмарков. Набор тестовых задач подбирается таким образом, чтобы охватить широкий спектр лингвистических вызовов. Среди таких задач могут быть language modeling, автодополнение текста (text completion), анализ тональности (sentiment analysis), вопросно-ответные системы (QA), суммаризация, машинный перевод и другие. Бенчмарки должны отражать реальные сценарии применения и учитывать разнообразие доменов и сложность языка.

Перед проведением бенчмаркинга полезно ознакомиться с примерами работы больших языковых моделей.

Использование одних и тех же методов бенчмаркинга и датасетов может привести к стагнации метрик и однотипным результатам при оценке систем LLM. Рекомендуется периодически обновлять бенчмарки и метрики для более точного измерения различных аспектов возможностей модели. Недавнее исследование компании Hugging Face предложило набор бенчмарков для оценки, анализа и сравнения существующих открытых моделей LLM (1):

MMLU-Pro – усовершенствованная версия MMLU, предлагает десять вариантов ответа для каждого вопроса, что требует более глубокого рассуждения и снижает уровень шума за счёт экспертной валидации.
GPQA – содержит сложные вопросы, созданные экспертами, они уже проверены на уровень сложности и фактическую достоверность, доступ к вопросам ограничен механикой защиты от data contamination.
MuSR – алгоритмически сгенерированные сложные задачи, требующие логического рассуждения и анализа длинного контекста. Большинство моделей показывают результаты на уровне случайного угадывания.
MATH – Набор сложных задач из математических олимпиад старшей школы, структурированный для единообразия и сфокусированный на наиболее трудных вопросах.
IFEval – тестирует способность моделей следовать явным инструкциям и требованиям к форматированию с применением строгих метрик оценки.
BBH – содержит 23 сложные задачи из датасета BigBench, измеряя объективные метрики языкового понимания и демонстрируя корреляцию с пользовательскими предпочтениями.

Для каждой бенчмарк-задачи формируются отобранные датасеты, включающие тренировочные, валидационные и тестовые выборки. Датасеты должны быть достаточно объемными, чтобы учитывать вариативность языкового использования, отраслевые особенности и потенциальные bias. Тщательная подготовка данных критически важна для обеспечения высококачественной и объективной оценки.

Модели, обученные как Large Language Models (LLM), проходят fine-tuning с использованием соответствующих методологий на бенчмарк-датасетах. Типичный подход включает предварительное обучение (pre-training) на крупных текстовых корпусах, таких как Common Crawl или Wikipedia, с последующим fine-tuning на специализированных датасетах для конкретных задач. Эти модели могут отличаться по архитектуре (например, трансформерные), размерам или стратегиям обучения.

Обученные или прошедшие fine-tuning LLM-модели оцениваются на бенчмарк-задачах с использованием заранее определенных метрик. Производительность моделей измеряется по их способности генерировать точные, когерентные и контекстуально уместные ответы для каждой задачи. Результаты оценки дают представление о сильных и слабых сторонах моделей, а также об их относительной эффективности.

Результаты оценки анализируются для сравнения производительности различных LLM-моделей на каждой бенчмарк-задаче. Модели ранжируются (2) на основе общей производительности (см. рис. 1) или специализированных метрик для конкретных задач. Сравнительный анализ позволяет исследователям и разработчикам выявлять передовые модели (state-of-the-art), отслеживать их прогресс со временем и понимать, какие модели обладают наибольшими преимуществами в определенных сценариях.

Рисунок 1: Рейтинг топ-10 LLM на основе их метрик производительности.

LLM-модели могут оцениваться по различным параметрам. Наиболее часто используемые метрики для оценки LLM включают:

Perplexity — одна из наиболее распространённых метрик для оценки языковых моделей. Она измеряет, насколько хорошо модель предсказывает заданный текстовый фрагмент. Чем ниже значение perplexity (3), тем лучше производительность модели (см. рис. 2).

Процесс оценки включает привлечение экспертов, которые анализируют качество сгенерированных языковой моделью ответов. Оценка проводится (4) по различным критериям, включая:

Релевантность (Relevance)
Плавность (Fluency)
Когерентность (Coherence)
Общее качество (Overall quality)

Этот метод предоставляет субъективную обратную связь о производительности модели (см. рис. 3).

Рисунок 3: Эксперт одновременно использует обе модели, чтобы определить, какая из них лучше. Источник: LMSYS.

BLEU — метрика, широко используемая для оценки задач машинного перевода. Она сравнивает сгенерированный моделью текст с одной или несколькими эталонными переводами и измеряет степень их сходства.

BLEU-оценки варьируются от 0 до 1, где более высокие значения указывают на лучшую производительность модели.

ROUGE — это набор метрик, используемых для оценки качества суммаризации текста. Он сравнивает сгенерированный текст с одной или несколькими эталонными сводками и вычисляет precision, recall и F1-score (см. рис. 4).

Показатели ROUGE позволяют оценить способность языковой модели к генерации качественных кратких изложений.

Рисунок 4: Пример процесса оценки с использованием ROUGE. Источник: Towards Data Science (<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fresearch.aimultiple.com%2Flarge-language-model-evaluation%2F%23easy-footnote-bottom-5-684885&postId=1843559" rel="nofollow noreferrer noopener" target="_blank">5</a>).

Метрики diversity оценивают разнообразие и уникальность сгенерированных ответов. Этот подход включает анализ таких показателей, как n-gram diversity или измерение семантического сходства между различными сгенерированными ответами.

Более высокие значения diversity указывают на большую вариативность и уникальность выходных данных модели.

LEval — это набор бенчмарков, предназначенный для тестирования моделей на реальных задачах, требующих различных навыков. Он включает в себя оценку таких задач, как академическая суммаризация, генерация технической документации и когерентность в многоходовых диалогах. Этот фреймворк позволяет исследователям тестировать модели в прикладных сценариях, а не только на изолированных лингвистических задачах.

Применение: можно оценить способность модели к созданию юридических контрактов, сравнивая её выходные данные с текстами, написанными профессиональными юристами, с помощью задачи LEval по юридическому письму.

Этот метод ранжирует языковые модели на основе их конкурентной производительности в общих задачах, аналогично системе рейтингов шахматистов. Модели соревнуются, генерируя ответы на одинаковые задачи, а их рейтинги корректируются по мере появления новых моделей и заданий.

Применение: сравнение GPT-4 и Claude 3.5 в задаче ответа на вопросы-викторины, где точность одного из них улучшает его Elo-рейтинг относительно другого.

OpenLLM leaderboard — это динамическая система бенчмаркинга, оценивающая модели на основе публично доступных датасетов. Она агрегирует результаты тестов в таких задачах, как машинный перевод, суммаризация и вопросно-ответные системы (см. рис. 5).

Применение: оценка модели на мультилингвистическом бенчмарке FLORES показывает, как её качество перевода соотносится с другими моделями, такими как Mistral и Llama.

Рисунок 5: Интерфейс OpenLLM leaderboard.

Dynamic prompt testing оценивает модели в условиях изменяющихся, приближенных к реальным сценариев взаимодействия с пользователем. Этот метод позволяет тестировать реакцию моделей на сложные, многоуровневые запросы и неоднозначные промпты.

Применение: тестирование модели с последовательными промптами, например: «Сгенерируй краткое изложение этой новостной статьи, а затем напиши твит о ней в непринуждённом стиле для аудитории поколения GEN-Z.»

Этот фреймворк измеряет энергопотребление и вычислительную эффективность моделей во время обучения и инференса моделей. Он ориентирован на метрики устойчивости, такие как углеродный след и потребление электроэнергии.

Применение: сравнение энергопотребления крупной модели, такой как GPT-4, с её облегчённой версией, например, GPT-4 Mini, во время выполнения пакета инференс-задач.

Хотя современные методы оценки LLM-моделей дают ценные инсайты, они далеки от совершенства. Основные проблемы, с которыми сталкиваются исследователи:

Исследование Scale AI показало, что некоторые LLM-модели переобучаются (overfitting) на популярных AI-бенчмарках. Для выявления этой проблемы они создали новый тест GSM1k, который представляет собой уменьшенную версию математического бенчмарка GSM8k. Модели LLM показали результаты на GSM1k значительно худшие по сравнению с GSM8k, что указывает на отсутствие подлинного понимания материала.

Модели Mistral и Phi провалили тест, а GPT-4, Claude, Gemini и Llama показали слабые результаты. Это демонстрирует, что существующие методы оценки могут вводить в заблуждение из-за эффекта overfitting, и подчеркивает необходимость новых тестов, подобных GSM1k (6).

Foundation-модели обучаются на широком наборе источников данных, однако организации-разработчики моделей LLM не всегда раскрывают полный состав этих данных. Это делает затруднительным проверку того, содержат ли данные предназначенные для обучения тестовые примеры.

Data contamination снижает надежность большинства бенчмарков для моделей LLM, поскольку они могут сталкиваться с тестовыми данными уже на этапе обучения.

Perplexity измеряет, насколько хорошо модель предсказывает текст, но не отражает таких аспектов, как когерентность, релевантность или понимание контекста.

Поэтому избыточное использование perplexity в качестве главной метрики может приводить к искаженной оценке качества LLM. Для более точного анализа нужны более комплексные показатели, включающие семантическую связность и контекстную релевантность.

Human evaluation является ценным методом для анализа результатов работы больших языковых моделей (LLM), но она может быть субъективной, подверженной искажениям и значительно более затратной, чем автоматизированные методы оценки. Разные эксперты могут иметь разные мнения, а критерии оценки могут быть непоследовательными. Кроме того, оценка человеком может занимать много времени и быть дорогостоящей, особенно в масштабных проектах.

Автоматизированные методы оценки LLM-моделей подвержены предсказуемым bias (7). В приведённом ниже списке представлен один пример для каждого типа bias, но возможны и обратные случаи (например, некоторые модели могут, наоборот, отдавать предпочтение последним элементам).

Order bias – предпочтение первых элементов в списке.
Compassion fade – модели отдают предпочтение именам вместо анонимизированных кодовых обозначений.
Ego bias – модели склонны благоприятствовать ответам, похожим на их собственные предыдущие генерации.
Salience bias – более длинные ответы могут считаться предпочтительными.
Bandwagon effect – модели могут отдавать приоритет распространённым мнениям большинства.
Attention bias – модели могут генерировать избыточную и нерелевантную информацию.

Некоторые методы оценки, такие как BLEU или ROUGE, требуют наличия эталонных данных для сравнения.

Однако получение качественных референсных данных затруднительно, особенно в задачах с множеством возможных корректных ответов или в открытых генеративных задачах. Ограниченные или предвзятые эталонные данные могут не охватывать весь спектр допустимых вариантов ответа модели.

Существующие методы оценки часто не учитывают разнообразие и креативность генераций моделей LLM.

Метрики, сосредоточенные исключительно на точности и релевантности, упускают важность разнообразных и оригинальных ответов. Оценка разнообразия в выходных данных LLM-моделей остаётся актуальной научной задачей.

Большинство методов оценки ориентировано на фиксированные бенчмарк-даты и задачи, которые не всегда отражают сложности реального применения моделей LLM.

Тестирование в контролируемых условиях не всегда масштабируется на динамичные и разнообразные контексты, в которых разрабатываются и используются модели LLM.

Большие языковые модели (LLM) могут быть уязвимы перед атаками, такими как манипуляция предсказаниями модели и «отравление» данных, когда тщательно подобранные вводные данные могут ввести модель в заблуждение или обмануть ее. Существующие методы оценки часто не учитывают такие атаки, и вопрос устойчивости моделей остаётся актуальной областью исследований.

Помимо этих проблем, генеративные ИИ-модели могут сталкиваться с правовыми и этическими вопросами, которые могут повлиять на использование LLM в вашем бизнесе.

Для устранения существующих проблем методов оценки производительности LLM исследователи и практики разрабатывают различные подходы и стратегии. Внедрение всех этих методов может оказаться чрезмерно затратным для каждого проекта, однако ознакомление с лучшими практиками способствует более успешной работе с моделями LLM.

Используйте foundation-модели, которые раскрывают свои обучающие данные, чтобы минимизировать data contamination и повысить достоверность тестирования.

Вместо того, чтобы полагаться исключительно на perplexity, применяйте разнообразные метрики для более комплексного анализа производительности LLM. Эти показатели позволяют точнее оценить различные аспекты качества модели:

Fluency – плавность текста
Coherence – когерентность
Relevance – релевантность
Diversity – разнообразие
Context understanding – глубина понимания контекста

Улучшите последовательность и объективность человеческой оценки с помощью четких руководящих принципов и стандартизированных критериев. Использование нескольких экспертов и проведение проверки согласованности между оценщиками поможет снизить субъективность. Кроме того, краудсорсинговая оценка может обеспечить разнообразие точек зрения и масштабные оценки.

Формируйте разнообразные и репрезентативные эталонные данные для более точной оценки выходных результатов LLM. Кураторство датасетов, охватывающих широкий спектр допустимых вариантов, привлечение данных из различных источников и учет множества контекстов позволяют значительно повысить их качество и охват эталонных данных.

Стимулируйте генерацию разнообразных ответов и оценивайте уникальность сгенерированного текста с помощью таких методов, как n-граммное разнообразие или измерение семантического сходства.

Дополнение методов оценки сценариями и задачами из реального мира способствует улучшению обобщающей способности LLM. Использование доменно-специфичных или отраслевых тестовых датасетов позволяет получить более реалистичную оценку возможностей модели.

Анализ устойчивости LLM к атакам с использованием вредоносных (adversarial) входных данных остается актуальной областью исследований. Разработка методик оценки, проверяющих модель на стойкость к различным враждебным входным данным и сценариям, способствует повышению безопасности и надежности LLM.

LLMOps — специализированное направление MLOps, ориентированное на разработку и оптимизацию LLM. Применение инструментов LLMOps для тестирования и кастомизации LLM в бизнес-процессах не только экономит время, но и снижает вероятность ошибок.

”Open-LLM performances are plateauing, let’s make the leaderboard steep again” Retrieved on July 3, 2024.
“Open LLM Leaderboard” Hugging Face. May 30, 2023.
“Perplexity in Language Models” Towards Data Science. Retrieved on May 30, 2023.
“Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings” May 30, 2023.
“Introduction to Text Summarization with ROUGE Scores ” Towards Data Science May 30, 2023.
Arxiv. “A Careful Examination of Large Language Model Performance on Grade School Arithmetic” Retrieved on 21 May 2o24.
Koo R.; et al. (2023). Benchmarking Cognitive Biases in Large Language Models as Evaluators. Retrieved January 1, 2024

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Какие данные нужны для обучения LLM?
В чем специфика работы с GenAI проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными”

Автор оригинала: Cem Dilmegani

#llm #ai #benchmarking #finetuning #bleu #rouge #бенчмаркинг

Оценка больших языковых моделей в 2025 году: пять методов

Применение оценки производительности больших языковых моделей

1. Оценка производительности

2. Сравнение моделей

3. Обнаружение и устранение bias

4. Удовлетворенность пользователей и доверие

5 этапов бенчмаркинга для более точной оценки производительности больших языковых моделей

Выбор бенчмарков

Подготовка датасетов

Обучение моделей и fine-tuning

Оценка модели

Сравнительный анализ

5 наиболее распространенных методов оценки производительности

1. Perplexity

2. Human evaluation

3. BLEU (Bilingual Evaluation Understudy)

4. ROUGE (Recall-Oriented Understudy for Gissing Evaluation)

5. Diversity

Дополнительное измерение оценки: 5 новых моделей и фреймворков

1. LEval (Language Model Evaluation)

2. Elo-рейтинги для ИИ-моделей

3. Интеграция с OpenLLM leaderboard

4. Dynamic prompt testing

5. Energy & hardware efficiency benchmarks

Основные проблемы существующих методов оценки LLM

Overfitting

Data contamination

Чрезмерная зависимость от perplexity

Субъективность и высокая стоимость human evaluation

Bias в автоматизированных оценках

Ограниченность референсных данных

Отсутствие метрик разнообразия

Обобщаемость на реальные сценарии

Атаки с использованием adversarial input

Лучшие практики для решения проблем оценки LLM

Прозрачность данных для тренировки

Множественные метрики оценки

Улучшенные методы human evaluation

Разнообразие эталонных данных

Включение метрик разнообразия

Оценка в реальных условиях

Оценка устойчивости

Использование LLMOps

Литература