«На уровне o1-pro» и «немного лучше DeepSeek»: первые впечатления от модели Grok 3 от xAI

Глава компании Илон Маск наз��ал Grok 3 «самым умным ИИ на Земле».

xAI выпустила Grok 3, «рассуждающую» Grok 3 Reasoning и режим для поиска информации DeepSearch 18 января 2025 года. Ранний доступ к обновлениям получили подписчики Premium Plus за $22 в месяц (2011 рублей по курсу ЦБ на 18 февраля 2025 года).
Дополнительные запросы для DeepSearch и функций рассуждений Think и Big Brain доступны подписчикам нового тарифного плана SuperGrok за $30 в месяц (2743 рубля), пишет TechCrunch.

Grok 3 уже протестировал Андрей Карпатый, разработчик Eureka Labs, бывший специалист OpenAI и в прошлом директор по ИИ в Tesla. По его мнению, «рассуждающая» модель Grok работает на уровне o1-pro от OpenAI и «немного лучше» DeepSeek-R1 и Gemini 2.0 Flash Thinking.

В его экспресс-тесте Grok 3, в отличие от DeepSeek-R1, Gemini 2.0 Flash Thinking и Claude, смог создать интерактивную веб-страницу для настольной игры «Колонизаторы» (Settlers of Catan).
Карпатый также отметил, что модель xAI попыталась объяснить математическую гипотезу Римана. o1-pro, Claude и Gemini, для сравнения, «сразу же сдаются и говорят, что проблему ещё не решили».
Исследователь добавил, что в режиме Deep Search чат-бот ищет информацию «примерно на уровне» Deep Research в Perplexity, но хуже ChatGPT, где есть аналогичная функция. Несколько раз Grok приложил несуществующие ссылки и выдал придумки за факты без указания источников.

Grok в режиме реального времени показывает, на каких сайтах и в каких постах в X ищет информацию. Фрагмент из презентации xAI. Источник: el.cine

Некоторые пользователи пришли к выводу, что Grok 3 хорошо программирует, создаёт игры, а также понимает движения в пространстве.

Запрос (перевод с английского): «Напиши скрипт на Python, чтобы мяч подпрыгивал внутри вращающегося тессеракта». Источник: Yuchen Jin

Игра, полностью созданная с помощью Grok 3. Пользователь заключил, что модель соответствует уровню Claude 3.5 Sonnet и GPT-4o. Источник: Penny2x

Автор сделал свою версию игры Portal 2 с возможностью перемещаться по карте через порталы. «Единственная модель, которая смогла зайти так далеко», — написал он. Источник: shaurya

Один из пользователей попросил Grok 3 изменить код своего пользовательского интерфейса, чтобы он стал «более невероятным».

Так стал выглядеть интерфейс Grok после того, как пользователь подключил CSS-файл. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fmatiroy%2Fstatus%2F1891922676081705436&postId=1819171" rel="nofollow noreferrer noopener" target="_blank">Matiroy</a>

Другие заметили, что бот не может нарисовать «шар внутри вращающейся фигуры» — это тест, который всё чаще используют в соцсетях для оценки навыков программирования нейросетей.

«Grok 3 не силён в программировании», — написал пользователь. Источник: Theot3.gg

Пользователь попросил модели написать код для «чего-то напоминающего панель управления звездолётом в далёком будущем». В комментариях результат Grok не оценили. Источник: Ethan Mollick

В одном из примеров Grok 3 без режима рассуждений подробно расписал ход решения и дал верный ответ на логическую задачу, в которой часто ошибается GPT-4o.

Задача: У девочки Салли есть три брата. У каждого брата есть две сестры. Сколько сестёр у Салли?

ChatGPT запутался. Сначала написал, что у Салли две сестры, потом добавил, что в семье всего две девочки. Источник: Kyle

Пользователи пишут, что у некоторых в бета-версии по-прежнему работает менее продвинутая модель. У одного автора Grok не смог верно проанализировать изображение и не стал расписывать ход решения задачи по физике. У другого — дал правильный ответ с объяснениями и формулами.

В этом примере Grok 3 посчитал, что оба металлических шара приземлятся одновременно. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fwzihanw%2Fstatus%2F1891754686153146812&postId=1819171" rel="nofollow noreferrer noopener" target="_blank">Zihan Wang</a>

Другой пользователь привёл рассуждения модели при том же запросе. Grok 3 расписал ход решения и дал верный ответ. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2FCastelMaker%2Fstatus%2F1891761050938134777&postId=1819171" rel="nofollow noreferrer noopener" target="_blank">CastelMaker</a>

#новости #grok3 #xai #grok