DeepSearch, тексты, код: на что реально способен Грок-3

Протестировал Грок 3 от Илона Маска. Первые впечатления были положительными, но углубленное тестирование выявило как сильные, так и слабые стороны модели. В ��той статье я делюсь результатами тестов, сравниваю Грок 3 с GPT-4 Turbo (O3 Mini High) и разбираю его потенциал в генерации длинных текстов, исследовательской работе и программировании.

Первый тест касался написания объемного текста. Я задал Гроку промпт: написать статью о преимуществах электромобилей объемом 5000 слов.

Грок 3 написал 1500 слов вместо запрошенных 5000.
GPT O3 Mini High справился гораздо лучше, выдав 4700 слов.
По структуре и содержанию текст Грока был качественным, но он просто не дотянул до заданного объема.

Вывод: если вам нужна длинная статья — Грок может не справиться.

Следующий тест — DeepSearch. Я задал Гроку задачу: подобрать идеальные горные лыжи под мой стиль катания.

Грок правильно определил, что мне нужны All Mountain лыжи, начал исследование.
Он проанализировал 120 страниц, изучил параметры лыж, рецензии и подборки.
Итоговый список был довольно точным

Также я проверил DeepSearch для анализа рынка мотоджерси. Грок собрал:

Ключевые жалобы пользователей (например, недостаточная вентиляция).
Материалы и технологии (что важно для разных категорий райдеров).
Список брендов и их специфику.

По одному и тому же запросу он выдает разные результаты. На мой взгляд, это противоречит исследовательской работе. Если пропмт один. то и результаты должны быть одинаковыми, пусть и написанные другими словами.
По российским сайтам поиск слабее, чем по англоязычным. Ищет среди небольшого числа сайтов и упускает много данных. Например, он не смог внятно выдать список изменений по ПДД за 2024й год, упустил много моментов.

Вывод: DeepSearch полезен, но требует двойной проверки результатов.

Попробовал заставить Грока написать парсер выдачи Гугла. Результат:

Код содержал ошибки.
Не работал с первого раза. Со второго раза тоже не работал.
Пришлось несколько раз уточнять запрос, но даже после исправлений он не смог выполнить задачу.
GPT написал рабочий код сразу.

Вывод: в программировании Грок уступает GPT.

Такое ощущение, что он должен быть мощнее, но видимо из за спешки релиза, что то не допилили. Еще не появилась опция "Big Brain", которая была показана на презентации. Возможно с ее появлением, Грок станет более конкурентным.

DeepSearch, тексты, код: на что реально способен Грок-3

Грок против GPT: тест на генерацию длинных текстов

DeepSearch

Минусы DeepSearch

Грок и программирование

Итоги

А вы уже тестировали Грок 3? Делитесь впечатлениями в комментариях!