Разработчики протестировали ИИ-модели с помощью игры Super Mario — дольше всех играла Claude 3.7 Sonnet

А быстрее всех «умерла» GPT-4o.

Исследователи из Hao AI Lab, Лаборатории искусственного интеллекта Калифорнийского университета Сан-Диего, предложили тестировать ведущие ИИ-модели на игре Super Mario Bros.
Лучше всего справилась Claude 3.7 Sonnet — «гибридная» модель от Anthropic, которая переключается между обычным режимом и методом рассуждений. Хуже всех себя показала GPT-4o. Новая модель GPT-4.5 «умерла» предпоследней.
Рассуждающие модели, такие как o1 от OpenAI, «показали худшие результаты», потому что им нужно время для принятия решения, а в игре важна скорость, пишет TechCrunch.

Сравнение игрового процесса рассуждающей Claude 3.7 Sonnet, 3.5 Sonnet, Gemini 1.5 и GPT-4o. Источник: Hao AI Lab

Игра последней модели от OpenAI — GPT-4.5. Источник: Hao AI Lab

Игра последней модели от Google — Gemini 2 Flash. Она справилась хуже предыдущей Gemini 1.5. Источник: Hao AI Lab

Для тестов разработчики создали игровых ИИ-агентов. Они передавали ИИ скриншоты из игры, а нейросети генерировали код на Python для управления Марио.
Hao AI Lab также выложила на GitHub код игровых агентов для запуска Super Mario Bros, головоломки 2048 и Tetris, чтобы пользователи могли проверить другие языковые модели.
Поиск новых тестов может быть попыткой преодолеть «кризис оценки» нейросетей. О нём 2 марта 2025 написал ведущий исследователь в области ИИ Андрей Карпатый на фоне выхода GPT-4.5.
25 февраля 2025 года Anthropic провела стрим на Twitch, во время которого рассуждающая Claude 3.7 Sonnet играла в Pokémon Red и дошла до последнего уровня. При этом Claude «не обучали играть в игры». Компания считает, что это «проблески» ИИ, который решает задачи «более компетентно» — без необходимости специально тренировать модель.