Экспресс-тест Grok 3 и сравнение с o3-mini и Deep research в Perplexity

Привели примеры, как Grok создаёт 3D-игры и ищет информацию в режиме DeepSearch.

Содержание

20 февраля 2025 года xAI открыла бесплатный доступ к новой модели Grok 3, режимам рассуждений и поиска информации Think и DeepSearch для всех пользователей — «пока серверы не расплавятся».

Чтобы протестировать модель, нужно войти в аккаунт в соцсети X и выбрать Grok на левой боковой панели. Также можно скачать или обновить приложение чат-бота — оно доступно только на iOS.

Поиск информации

Режим DeepSearch для анализа десятков источников

  • При запросе «Как нормализовать сон?» Grok проанализировал 30 англоязычных источников, среди них — статьи Ассоциации по вопросам сна с комментариями медиков и публикации Американской академии медицины сна. Он также собрал советы в единую таблицу.
  • Бот порекомендовал придерживаться графика сна, создать комфортные условия в спальне, вести дневник для снятия тревоги, а также рассказал, как делать дыхательные практики. Тезисы соответствуют приведённым ссылкам.
  • Бывший специалист OpenAI и в прошлом директор по ИИ в Tesla Андрей Карпатый писал, что в его тесте Grok прикладывал несуществующие ссылки и выдумывал факты.
Ответ Grok на запрос: «Как нормализовать сон? Какой сон считается здоровым и какие есть рекомендации медиков, чтобы быстро уснуть?». Здесь и далее источник: vc.ru
  • C 15 февраля 2025 года в чат-боте Perplexity можно выбрать режим Deep Research. Поскольку язык запроса — русский, бот проанализировал только русскоязычные источники, в том числе сайт Минздрава, материалы «Ленты», ТАСС и РБК.
  • Как и Grok, бот рассказал про техники дыхания и «метод военных», но не упоминал про необходимость снизить уровень тревожности. При этом ответ Perplexity получился менее формальным.
Ответ Perplexity
Ответ Perplexity
  • Автор Telegram-канала Denis Sexy IT Денис Ширяев поделился многостраничным ответом ChatGPT на похожий запрос в режиме Deep research. Он доступен по подписке Pro за $200 в месяц.
Фрагмент ответа ChatGPT
Фрагмент ответа ChatGPT

Работа с актуальной информацией

  • Grok ищет информацию не только на сайтах, но и в постах соцсети X, даже без режима DeepSearch. На просьбу рассказать новости робототехники за февраль 2025 года Grok выбрал две актуальные новости, одну из них про робота с синтезированными мышцами Clone Robotics — из поста на X.
  • Новость про российский беспилотный мини-трактор Cognitive Pilot была опубликована еще в 2024 году.
Ответ Grok на запрос «Расскажи о последних новостях и достижениях в сфере робототехники. Ищи информацию в источниках с 1.02.2025 по 24.02.2025»
Ответ Grok на запрос «Расскажи о последних новостях и достижениях в сфере робототехники. Ищи информацию в источниках с 1.02.2025 по 24.02.2025»
  • ChatGPT подобрал пять новостей, из них две про компанию Figure. Он опирался на статьи только с одного сайта. Новость про поставки роботов-гуманоидов UBTech была опубликована в январе 2025 года.
Ответ ChatGPT
Ответ ChatGPT

Написание кода и создание игр

  • В соцсетях разошлось видео, на котором Grok 3 не может написать код для мячика, прыгающего внутри шестиугольника. Такой результат получается, если использовать базовую модель. Если нажать кнопку Think, Grok справится с задачей.
Результат Grok 3 без режима рассуждений. Источник: Theot3.gg
Код и результат по запросу (перевод с английского): «Напиши скрипт на Python для мяча, который подпрыгивает внутри вращающегося шестиугольника. На мяч должны действовать гравитация и трение, и он должен реалистично отскакивать от вращающихся стенок»
Запрос (перевод с английского): «Сделай копию игры "Пакман" на python и pygame». Результаты o3-mini и DeepSeek сгенерировал пользователь Prithiv Sakthi
  • После того, как Grok придумал игру с элементами «Тетриса» и «Три в ряд» на презентации Grok 3, глава xAI Илон Маск сказал, что готов запустить ИИ-студию по созданию игр. Пользователи соцсети X заметили, что бот может создавать 3D-игры.
Один из пользователей X создал с помощью Grok 3D-игру для двух игроков. Источник: Daniel Farinax
  • Ниже результаты Grok 3 и o3-mini по запросу создать файл HTML с кодом для 3D-лабиринта. В промпте модели получили ссылку на готовую 3D-модель Клона из «Звёздных войн» из открытой библиотеки. o3-mini с задачей не справилась.
Результат после запуска кода, который Grok написал с первой попытки. Структурой промпта поделился пользователь X Ben Dower
Результат o3-mini по такому же запросу

Тесты на логику

Детективная история

  • В тесте BIG-bench на Github языковым моделям предлагают прочитать длинную историю о школьной поездке на природу. В ней семеро одиннадцатиклассников живут в одном домике: некоторые из них начинают исчезать, а другие ведут себя подозрительно. Нужно выяснить, кто виноват в пропаже людей.
  • Grok 3 ответил верно и справился за одну минуту. По ссылке на диалог можно прочитать историю и его ответ. o3-mini думала две минуты и ошиблась.
Ответ o3-mini
Ответ o3-mini

Анализ картинок

  • Ни одна модель не смогла решить ребус на английском языке. С более простым заданием на русском ChatGPT справился, а Grok — нет.
ChatGPT-4o неверно ответил starvation вместо station
ChatGPT-4o неверно ответил starvation вместо station
Grok 3 привёл длинный анализ картинки, но ответил starlet вместо station
Grok 3 привёл длинный анализ картинки, но ответил starlet вместо station
ChatGPT-4o верно решил русскоязычный ребус
ChatGPT-4o верно решил русскоязычный ребус
Grok решил, что верный ответ — это «росток»
Grok решил, что верный ответ — это «росток»

Итоги

  • Grok чаще используют для создания игр. Как заметил Андрей Карпатый, в других задачах он показывает себя на уровне o1-pro и «немного» лучше DeepSeek-R1.
  • Ответы Grok в режиме DeepSearch схожи с ИИ-поисковиком Perplexity — в нём доступно пять бесплатных запросов в день для поиска по интернету с помощью Deep research. Отличительная особенность Grok — возможность отслеживать тренды и новости в соцсети X.
  • После окончания бесплатного периода Grok 3 режимы Think и DeepSearch будут доступны по подписке Premium Plus за $22 в месяц (1940 рублей по курсу ЦБ на 24 февраля 2025 года). После презентации модели цену для пользователей из США подняли до $50 (4410 рублей) — для остальных стран тариф остался прежним.
15
3
3
1
15 комментариев