Экспресс-тест Grok 3 и сравнение с o3-mini и Deep research в Perplexity
Привели примеры, как Grok создаёт 3D-игры и ищет информацию в режиме DeepSearch.
Содержание
Чтобы протестировать модель, нужно войти в аккаунт в соцсети X и выбрать Grok на левой боковой панели. Также можно скачать или обновить приложение чат-бота — оно доступно только на iOS.
Поиск информации
Режим DeepSearch для анализа десятков источников
- При запросе «Как нормализовать сон?» Grok проанализировал 30 англоязычных источников, среди них — статьи Ассоциации по вопросам сна с комментариями медиков и публикации Американской академии медицины сна. Он также собрал советы в единую таблицу.
- Бот порекомендовал придерживаться графика сна, создать комфортные условия в спальне, вести дневник для снятия тревоги, а также рассказал, как делать дыхательные практики. Тезисы соответствуют приведённым ссылкам.
- Бывший специалист OpenAI и в прошлом директор по ИИ в Tesla Андрей Карпатый писал, что в его тесте Grok прикладывал несуществующие ссылки и выдумывал факты.
Ответ Grok на запрос: «Как нормализовать сон? Какой сон считается здоровым и какие есть рекомендации медиков, чтобы быстро уснуть?». Здесь и далее источник: vc.ru
- C 15 февраля 2025 года в чат-боте Perplexity можно выбрать режим Deep Research. Поскольку язык запроса — русский, бот проанализировал только русскоязычные источники, в том числе сайт Минздрава, материалы «Ленты», ТАСС и РБК.
- Как и Grok, бот рассказал про техники дыхания и «метод военных», но не упоминал про необходимость снизить уровень тревожности. При этом ответ Perplexity получился менее формальным.
Ответ Perplexity
- Автор Telegram-канала Denis Sexy IT Денис Ширяев поделился многостраничным ответом ChatGPT на похожий запрос в режиме Deep research. Он доступен по подписке Pro за $200 в месяц.
Фрагмент ответа ChatGPT
Работа с актуальной информацией
- Grok ищет информацию не только на сайтах, но и в постах соцсети X, даже без режима DeepSearch. На просьбу рассказать новости робототехники за февраль 2025 года Grok выбрал две актуальные новости, одну из них про робота с синтезированными мышцами Clone Robotics — из поста на X.
- Новость про российский беспилотный мини-трактор Cognitive Pilot была опубликована еще в 2024 году.
Ответ Grok на запрос «Расскажи о последних новостях и достижениях в сфере робототехники. Ищи информацию в источниках с 1.02.2025 по 24.02.2025»
- ChatGPT подобрал пять новостей, из них две про компанию Figure. Он опирался на статьи только с одного сайта. Новость про поставки роботов-гуманоидов UBTech была опубликована в январе 2025 года.
Ответ ChatGPT
Написание кода и создание игр
- В соцсетях разошлось видео, на котором Grok 3 не может написать код для мячика, прыгающего внутри шестиугольника. Такой результат получается, если использовать базовую модель. Если нажать кнопку Think, Grok справится с задачей.
Результат Grok 3 без режима рассуждений. Источник: Theot3.gg
Код и результат по запросу (перевод с английского): «Напиши скрипт на Python для мяча, который подпрыгивает внутри вращающегося шестиугольника. На мяч должны действовать гравитация и трение, и он должен реалистично отскакивать от вращающихся стенок»
Запрос (перевод с английского): «Сделай копию игры "Пакман" на python и pygame». Результаты o3-mini и DeepSeek сгенерировал пользователь Prithiv Sakthi
Один из пользователей X создал с помощью Grok 3D-игру для двух игроков. Источник: Daniel Farinax
- Ниже результаты Grok 3 и o3-mini по запросу создать файл HTML с кодом для 3D-лабиринта. В промпте модели получили ссылку на готовую 3D-модель Клона из «Звёздных войн» из открытой библиотеки. o3-mini с задачей не справилась.
Результат после запуска кода, который Grok написал с первой попытки. Структурой промпта поделился пользователь X Ben Dower
Результат o3-mini по такому же запросу
Тесты на логику
Детективная история
- В тесте BIG-bench на Github языковым моделям предлагают прочитать длинную историю о школьной поездке на природу. В ней семеро одиннадцатиклассников живут в одном домике: некоторые из них начинают исчезать, а другие ведут себя подозрительно. Нужно выяснить, кто виноват в пропаже людей.
- Grok 3 ответил верно и справился за одну минуту. По ссылке на диалог можно прочитать историю и его ответ. o3-mini думала две минуты и ошиблась.
Ответ o3-mini
Анализ картинок
- Ни одна модель не смогла решить ребус на английском языке. С более простым заданием на русском ChatGPT справился, а Grok — нет.
ChatGPT-4o неверно ответил starvation вместо station
Grok 3 привёл длинный анализ картинки, но ответил starlet вместо station
ChatGPT-4o верно решил русскоязычный ребус
Grok решил, что верный ответ — это «росток»
Итоги
- Grok чаще используют для создания игр. Как заметил Андрей Карпатый, в других задачах он показывает себя на уровне o1-pro и «немного» лучше DeepSeek-R1.
- Ответы Grok в режиме DeepSearch схожи с ИИ-поисковиком Perplexity — в нём доступно пять бесплатных запросов в день для поиска по интернету с помощью Deep research. Отличительная особенность Grok — возможность отслеживать тренды и новости в соцсети X.
- После окончания бесплатного периода Grok 3 режимы Think и DeepSearch будут доступны по подписке Premium Plus за $22 в месяц (1940 рублей по курсу ЦБ на 24 февраля 2025 года). После презентации модели цену для пользователей из США подняли до $50 (4410 рублей) — для остальных стран тариф остался прежним.
15 комментариев