Экспресс-тест Grok 3 и сравнение с o3-mini и Deep research в Perplexity

Привели примеры, как Grok создаёт 3D-игры и ищет информацию в режиме DeepSearch.

Поиск информации
Написание кода и создание игр
Тесты на логику с помощью детективной истории и ребусов
Итоги

20 февраля 2025 года xAI открыла бесплатный доступ к новой модели Grok 3, режимам рассуждений и поиска информации Think и DeepSearch для всех пользователей — «пока серверы не расплавятся».

Чтобы протестировать модель, нужно войти в аккаунт в соцсети X и выбрать Grok на левой боковой панели. Также можно скачать или обновить приложение чат-бота — оно доступно только на iOS.

При запросе «Как нормализовать сон?» Grok проанализировал 30 англоязычных источников, среди них — статьи Ассоциации по вопросам сна с комментариями медиков и публикации Американской академии медицины сна. Он также собрал советы в единую таблицу.
Бот порекомендовал придерживаться графика сна, создать комфортные условия в спальне, вести дневник для снятия тревоги, а также рассказал, как делать дыхательные практики. Тезисы соответствуют приведённым ссылкам.
Бывший специалист OpenAI и в прошлом директор по ИИ в Tesla Андрей Карпатый писал, что в его тесте Grok прикладывал несуществующие ссылки и выдумывал факты.

Ответ Grok на запрос: «Как нормализовать сон? Какой сон считается здоровым и какие есть рекомендации медиков, чтобы быстро уснуть?». Здесь и далее источник: vc.ru

C 15 февраля 2025 года в чат-боте Perplexity можно выбрать режим Deep Research. Поскольку язык запроса — русский, бот проанализировал только русскоязычные источники, в том числе сайт Минздрава, материалы «Ленты», ТАСС и РБК.
Как и Grok, бот рассказал про техники дыхания и «метод военных», но не упоминал про необходимость снизить уровень тревожности. При этом ответ Perplexity получился менее формальным.

Автор Telegram-канала Denis Sexy IT Денис Ширяев поделился многостраничным ответом ChatGPT на похожий запрос в режиме Deep research. Он доступен по подписке Pro за $200 в месяц.

Grok ищет информацию не только на сайтах, но и в постах соцсети X, даже без режима DeepSearch. На просьбу рассказать новости робототехники за февраль 2025 года Grok выбрал две актуальные новости, одну из них про робота с синтезированными мышцами Clone Robotics — из поста на X.
Новость про российский беспилотный мини-трактор Cognitive Pilot была опубликована еще в 2024 году.

Ответ Grok на запрос «Расскажи о последних новостях и достижениях в сфере робототехники. Ищи информацию в источниках с 1.02.2025 по 24.02.2025»

ChatGPT подобрал пять новостей, из них две про компанию Figure. Он опирался на статьи только с одного сайта. Новость про поставки роботов-гуманоидов UBTech была опубликована в январе 2025 года.

В соцсетях разошлось видео, на котором Grok 3 не может написать код для мячика, прыгающего внутри шестиугольника. Такой результат получается, если использовать базовую модель. Если нажать кнопку Think, Grok справится с задачей.

Результат Grok 3 без режима рассуждений. Источник: Theot3.gg

Код и результат по запросу (перевод с английского): «Напиши скрипт на Python для мяча, который подпрыгивает внутри вращающегося шестиугольника. На мяч должны действовать гравитация и трение, и он должен реалистично отскакивать от вращающихся стенок»

Запрос (перевод с английского): «Сделай копию игры "Пакман" на python и pygame». Результаты o3-mini и DeepSeek сгенерировал пользователь Prithiv Sakthi

После того, как Grok придумал игру с элементами «Тетриса» и «Три в ряд» на презентации Grok 3, глава xAI Илон Маск сказал, что готов запустить ИИ-студию по созданию игр. Пользователи соцсети X заметили, что бот может создавать 3D-игры.

Один из пользователей X создал с помощью Grok 3D-игру для двух игроков. Источник: Daniel Farinax

Ниже результаты Grok 3 и o3-mini по запросу создать файл HTML с кодом для 3D-лабиринта. В промпте модели получили ссылку на готовую 3D-модель Клона из «Звёздных войн» из открытой библиотеки. o3-mini с задачей не справилась.

Результат после запуска кода, который Grok написал с первой попытки. Структурой промпта поделился пользователь X Ben Dower

Результат o3-mini по такому же запросу

В тесте BIG-bench на Github языковым моделям предлагают прочитать длинную историю о школьной поездке на природу. В ней семеро одиннадцатиклассников живут в одном домике: некоторые из них начинают исчезать, а другие ведут себя подозрительно. Нужно выяснить, кто виноват в пропаже людей.

Экспресс-тест Grok 3 и сравнение с o3-mini и Deep research в Perplexity

Grok 3 ответил верно и справился за одну минуту. По ссылке на диалог можно прочитать историю и его ответ. o3-mini думала две минуты и ошиблась.

Ни одна модель не смогла решить ребус на английском языке. С более простым заданием на русском ChatGPT справился, а Grok — нет.

ChatGPT-4o неверно ответил starvation вместо station

Grok 3 привёл длинный анализ картинки, но ответил starlet вместо station

ChatGPT-4o верно решил русскоязычный ребус

Grok решил, что верный ответ — это «росток»

Grok чаще используют для создания игр. Как заметил Андрей Карпатый, в других задачах он показывает себя на уровне o1-pro и «немного» лучше DeepSeek-R1.
Ответы Grok в режиме DeepSearch схожи с ИИ-поисковиком Perplexity — в нём доступно пять бесплатных запросов в день для поиска по интернету с помощью Deep research. Отличительная особенность Grok — возможность отслеживать тренды и новости в соцсети X.

После окончания бесплатного периода Grok 3 режимы Think и DeepSearch будут доступны по подписке Premium Plus за $22 в месяц (1940 рублей по курсу ЦБ на 24 февраля 2025 года). После презентации модели цену для пользователей из США подняли до $50 (4410 рублей) — для остальных стран тариф остался прежним.

#grok #xai #новости

Экспресс-тест Grok 3 и сравнение с o3-mini и Deep research в Perplexity

Содержание

Поиск информации

Режим DeepSearch для анализа десятков источников

Работа с актуальной информацией

Написание кода и создание игр

Тесты на логику

Детективная история

Анализ картинок

Итоги