Бенчмарки для нейросетей не работают, и нам нужен другой способ их оценивать
Или, по крайней мере, нужно сделать нынешние более… стандартизированными.
В социальной сети X (бывший Twitter, заблокирован в России) профессор Уортонской школы бизнеса Итак Моллик написал, что «публичные бенчмарки одновременно никакие и слишком насыщенные, из-за чего подавляющее большинство тестов ИИ выглядят скорее как обзоры еды — то есть, с упором на вкусы пишущих. Если ИИ критичен для работы, нам нужно что-нибудь получше».
Бенчмарки — это тесты, на которых испытываются вычислительные возможности больших языковых моделей. Например, это может быть тест по программированию, или из категории общих знаний на несколько десятков вопросов, или по математике. Считается, что это наиболее объективный способ сравнить несколько моделей или показать, насколько новая версия лучше предыдущей. Именно поэтому все разработчики прикладывают к релизам новинок испытания на бенчмарках — показать, насколько их разработка умнее, быстрее и круче всех остальных.
Инфоповодом для поста стало появление модели Grok 3 от xAI — компании Илона Маска. Grok доступна только в X, она пока не существует отдельно, и воспользоваться ею могут только пользователи соцсети. Тем не менее, модель прошла испытания на бенчмарках и показала результаты лучше, чем у флагмана от OpenAI — o3-mini-high. В особенности это коснулось математики, программирования и общих знаний университетского уровня.
Глядя на эти результаты, профессор Моллик высказывает сомнения в том, насколько они релевантны. И говорит, буквально: «[бенчмарки] GPQA Diamond, MMLU и ARC-AGI не выглядят так, будто на самом деле работают. И я удивлен, что никакая крупная IT или консалтинговая компания, или национальное агентство по стандартам до сих пор не выступили вперед с собственными крупномасштабными или частными тестами. Особенно учитывая, что в область нейросетей инвестируются сотни миллиардов долларов».
Сейчас нехватки в независимых тестах и бенчмарках точно нет — их постоянно предлагают все новые организации, но такой способ оценки едва ли можно назвать объективным. Некоторые эксперты даже предлагают как-то соотнести бенчмарки с экономическим воздействием на рынок, чтобы как-то утвердить их полезность. Другие уверены, что лучший способ проверить эффективность нейросети — посмотреть, насколько широко она используется в быту и в работе. Вполне может быть, что лучше распространенности и народной любви бенчмарка пока не придумали.