Разработчики протестировали ИИ-модели с помощью игры Super Mario — дольше всех играла Claude 3.7 Sonnet

А быстрее всех «умерла» GPT-4o.

На скриншоте видно, что Claude 3.7 Sonnet и��рала дольше всех. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fhaoailab%2Fstatus%2F1895557913621795076&postId=1846243" rel="nofollow noreferrer noopener" target="_blank">Hao AI Lab</a>
На скриншоте видно, что Claude 3.7 Sonnet и��рала дольше всех. Источник: Hao AI Lab
  • Исследователи из Hao AI Lab, Лаборатории искусственного интеллекта Калифорнийского университета Сан-Диего, предложили тестировать ведущие ИИ-модели на игре Super Mario Bros.
  • Лучше всего справилась Claude 3.7 Sonnet — «гибридная» модель от Anthropic, которая переключается между обычным режимом и методом рассуждений. Хуже всех себя показала GPT-4o. Новая модель GPT-4.5 «умерла» предпоследней.
  • Рассуждающие модели, такие как o1 от OpenAI, «показали худшие результаты», потому что им нужно время для принятия решения, а в игре важна скорость, пишет TechCrunch.
Сравнение игрового процесса рассуждающей Claude 3.7 Sonnet, 3.5 Sonnet, Gemini 1.5  и GPT-4o. Источник: Hao AI Lab
Игра последней модели от OpenAI — GPT-4.5. Источник: Hao AI Lab
Игра последней модели от Google — Gemini 2 Flash. Она справилась хуже предыдущей Gemini 1.5. Источник: Hao AI Lab
  • Для тестов разработчики создали игровых ИИ-агентов. Они передавали ИИ скриншоты из игры, а нейросети генерировали код на Python для управления Марио.
  • Hao AI Lab также выложила на GitHub код игровых агентов для запуска Super Mario Bros, головоломки 2048 и Tetris, чтобы пользователи могли проверить другие языковые модели.
  • Поиск новых тестов может быть попыткой преодолеть «кризис оценки» нейросетей. О нём 2 марта 2025 написал ведущий исследователь в области ИИ Андрей Карпатый на фоне выхода GPT-4.5.
  • 25 февраля 2025 года Anthropic провела стрим на Twitch, во время которого рассуждающая Claude 3.7 Sonnet играла в Pokémon Red и дошла до последнего уровня. При этом Claude «не обучали играть в игры». Компания считает, что это «проблески» ИИ, который решает задачи «более компетентно» — без необходимости специально тренировать модель.
18
6
1
34 комментария