«Анти-воук» нейросеть Маска: насколько хороша новая модель Grok 3

Илон Маск, владелец xAI, назвал свою модель Grok 3 «заточенной под поиск истины, даже если эта истина идет вразрез с тем, что называется политкорректным».

Grok 3 — уже третье поколение больших языковых моделей от xAI, компанией Илона Маска, аффилированной с соцсетью X (бывший Twitter, заблокирован в России). По словам самого Маска, для разработки третьего «Грока» им пришлось задействовать в десять раз больше вычислительных мощностей, чем для разработки второго «Грока», и в датасет даже вошли данные из судебных дел. Так что про «поиск истины» Маск мог говорить правду, пусть и в немного неожиданном ключе.

Grok 3 — это несколько моделей, спроектированных для разных нужд. Например, Grok 3 mini работает быстро, но не всегда точно, зато Grok 3 Reasoning и Grok 3 mini Reasoning — «рассуждающие» модели, как DeepSeek R1 или o3-mini от OpenAI. Это значит, что если задать нейросети вопрос, она покажет весь ход своих рассуждений. Полезная вещь для исследователей или студентов, которые пытаются решить с помощью нейросети домашнее задание.

Конечно, подоспели и результаты испытаний модели на бенчмарках.

AIME’24 — математика, GPQA — общие знания, LCB Oct-Feb — программирование. Помеченный синеньким и голубеньким Grok уверенно вырывается вперед, оставив позади даже лидеров в лице o3-mini-high и DeepSeek-R1.

Однако не все так радужно с испытаниями на бенчмарках. Внимательные авторы TechCrunch подметили, что при сравнении в список не были включены результаты тестирования модели o3-mini-high на AIME’25 по технике cons@64.

«Анти-воук» нейросеть Маска: насколько хороша новая модель Grok 3

Cons@64, он же consensus@64, — это особая техника тестирования нейросети, при которой модель может использовать 64 попытки правильно ответить на вопрос, и за ответ в итоге принимается тот, который повторялся чаще всего. Cons@64 имеет тенденцию сильно улучшать результаты моделей в бенчмарках, и если опустить этот параметр в графике, то может показаться, что одна модель превосходит другую, хотя на самом деле это не так.

В итоге получается так, что один параметр для сравнения просто отсутствует, а модель o1 от OpenAI при сравнении была вовсе установлена на «средний вычислительный уровень». Тем не менее, Grok 3 позиционируется как «самый умный в мире ИИ».

Впрочем, пользователь X (бывший Twitter, заблокирован в России) @teortaxesTex собрал более объективную версию сопоставления нейросетей по cons@64, и результаты показали, что Grok 3 действительно превосходит конкурентов — по крайней мере, в решении математических задачек.

Так что бенчмарки — эти «линейки» для нейросетей — не всегда могут показать на 100% релевантный результат. Приходится самим решать, кому верить.

Еще Grok позиционировался как «анти-воук» — нейросеть, которая не будет избегать тех обсуждений, которые обычно избегают конкуренты. Правда, в последнее время Маск сместил позиционирование в сторону большей политической нейтральности. Как оказалось, предыдущие версии Grok тоже имели некоторые «предпочтения», поэтому назвать из полностью объективными было невозможно.

Воспользоваться Grok 3 могут только пользователи социальной сети X (бывший Twitter, заблокирован в России), причем обладатели премиум-подписки. Впоследствии Маск планирует сделать Grok 2 опенсорс-моделью — с открытым исходным кодом, которым сможет пользоваться любой желающий.