«На уровне o1-pro» и «немного лучше DeepSeek»: первые впечатления от модели Grok 3 от xAI

Глава компании Илон Маск назвал Grok 3 «самым умным ИИ на Земле».

  • xAI выпустила Grok 3, «рассуждающую» Grok 3 Reasoning и режим для поиска информации DeepSearch 18 января 2025 года. Ранний доступ к обновлениям получили подписчики Premium Plus за $22 в месяц (2011 рублей по курсу ЦБ на 18 февраля 2025 года).
  • Дополнительные запросы для DeepSearch и функций рассуждений Think и Big Brain доступны подписчикам нового тарифного плана SuperGrok за $30 в месяц (2743 рубля), пишет TechCrunch.
  • Grok 3 уже протестировал Андрей Карпатый, разработчик Eureka Labs, бывший специалист OpenAI и в прошлом директор по ИИ в Tesla. По его мнению, «рассуждающая» модель Grok работает на уровне o1-pro от OpenAI и «немного лучше» DeepSeek-R1 и Gemini 2.0 Flash Thinking.
  • В его экспресс-тесте Grok 3, в отличие от DeepSeek-R1, Gemini 2.0 Flash Thinking и Claude, смог создать интерактивную веб-страницу для настольной игры «Колонизаторы» (Settlers of Catan).
  • Карпатый также отметил, что модель xAI попыталась объяснить математическую гипотезу Римана. o1-pro, Claude и Gemini, для сравнения, «сразу же сдаются и говорят, что проблему ещё не решили».
  • Исследователь добавил, что в режиме Deep Search чат-бот ищет информацию «примерно на уровне» Deep Research в Perplexity, но хуже ChatGPT, где есть аналогичная функция. Несколько раз Grok приложил несуществующие ссылки и выдал придумки за факты без указания источников.
Grok в режиме реального времени показывает, на каких сайтах и в каких постах в X ищет информацию. Фрагмент из презентации xAI. Источник: el.cine
  • Некоторые пользователи пришли к выводу, что Grok 3 хорошо программирует, создаёт игры, а также понимает движения в пространстве.
Запрос (перевод с английского): «Напиши скрипт на Python, чтобы мяч подпрыгивал внутри вращающегося тессеракта». Источник: Yuchen Jin
Игра, полностью созданная с помощью Grok 3. Пользователь заключил, что модель соответствует уровню Claude 3.5 Sonnet и GPT-4o. Источник: Penny2x
  • Другие заметили, что бот не может нарисовать «шар внутри вращающейся фигуры» — это тест, который всё чаще используют в соцсетях для оценки навыков программирования нейросетей.
«Grok 3 не силён в программировании», — написал пользователь. Источник: Theot3.gg
  • В одном из примеров Grok 3 без режима рассуждений подробно расписал ход решения и дал верный ответ на логическую задачу, в которой часто ошибается GPT-4o.
Задача: У девочки Салли есть три брата. У каждого брата есть две сестры. Сколько сестёр у Салли?
  • Пользователи пишут, что у некоторых в бета-версии по-прежнему работает менее продвинутая модель. У одного автора Grok не смог верно проанализировать изображение и не стал расписывать ход решения задачи по физике. У другого — дал правильный ответ с объяснениями и формулами.
В этом примере Grok 3 посчитал, что оба металлических шара приземлятся одновременно. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fwzihanw%2Fstatus%2F1891754686153146812&postId=1819171" rel="nofollow noreferrer noopener" target="_blank">Zihan Wang</a>
В этом примере Grok 3 посчитал, что оба металлических шара приземлятся одновременно. Источник: Zihan Wang
Другой пользователь привёл рассуждения модели при том же запросе. Grok 3 расписал ход решения и дал верный ответ. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2FCastelMaker%2Fstatus%2F1891761050938134777&postId=1819171" rel="nofollow noreferrer noopener" target="_blank">CastelMaker</a>
Другой пользователь привёл рассуждения модели при том же запросе. Grok 3 расписал ход решения и дал верный ответ. Источник: CastelMaker
4
2
8
18
2
76 комментариев