Баттл ИИ в январе 2025 - сравниваем с новым DeepSeek R1

У меня есть простой тест, по которому оцениваю ту или иную модель для своих задач. После выхода нашумевшего R1 решил пройтись этим тестом по основным популярным моделям. Сам тест представляет собой простой промпт:

Давай с помощью pygame создадим такую игру. Сначала пусть при открытии создается в рамках окна случайная закольцованная траектория — это будет трасса. Она должна полностью помещаться в границы экрана игры.

Критерии оценки

Код запускается без ошибок и в окне есть попытка что-то отрисовать, это что-то вмещается на экран полностью: +2 балла (считаем, что все необходимые библиотеки установлены у нас)
Трасса похожа на закольцованную: +2 балла
Пересечений нет, при этом траектория не просто окружность: +2 балла
Повороты плавные, а не угловатые: +2 балла
Бонус (у трассы есть толщина, по трассе можно "проехать", есть интересные приемы реализации): + 2 балла

Итого, максимум 10 баллов. При этом можно ставить 0.5 - 1 - 1.5, если критерий выполняется только частично.

ДИСКЛЕЙМЕР: Тест субъективен, отражает только мнение автора. Не относитесь слишком серьезно. Это лишь вариант быстрой оценки и сравнения за один промпт.

Итак, поехали! Всем моделям даем одинаковый промпт и одну попытку. Использую веб-версию по состоянию на 25.01.2025 или модель на хосте (тогда пишу ее версию).

Это единственная модель, которая написала имена всех переменных… на русском 😃

llama все переменные написала на русском

И этот 1С-стайл код заработал ) Правда, еще лама забыла импортировать модуль math, пришлось это сделать за нее.

Оценка: 4 из 10

Очень похоже на предыдущий результат, но код запустился сразу без посторонней помощи.

Оценка: 4.5 из 10

Задача решена без пересечений, но очень топорно. Просто кольцо. Для NASCAR такой трек пойдет ). Отнимем за второй критерий из трех полученных.

Оценка: 5 из 10
Что там у старшего брата?

Когда я это увидел, то посмеялся в голос 🤣 Согласитесь, неожиданный результат. Тем более, что от PRO ждешь улучшения по сравнению с младшим братом, а тут усложнение и полный уход не туда. Зато весело.

Оценка: 2.5 из 10

Уже интереснее... Пересечений нет, трасса не просто кольцо, хотя конфигурация и простая.

Оценка: 5.5 из 10

Модель от Маска. Останавливаемся на первом же критерии, на экран не помещается, но попытка что-то отрисовать есть.

Оценка: 1.5 из 10 💁‍♂

Это новая думающая универсальная модель гугла, но быстрая версия. Кажется, пока flash здесь больше, чем thinking.

Оценка: 3 из 10
Посмотрим более старую их версию - не thinking, но и не flash

Ну что-то самобытное, точно ни у кого не подсмотрели ) Ввидно попытку придать закольцованность, но ездить по такой трассе, пожалуй, будет хуже даже, чем по предыдущей. Однако попытка засчитана.

Оценка: 3.5 из 10

Попробуем отечественные модели. Одна из из них выдала только белый экран, хотя дал ей три попытки. Называть ее не буду (все же тест может быть не показательным), но в итоговую табличку помещу с 0.5 баллами (за белое окно с попыткой в код). Посмотрим же на ту модель, у которой что-то получилось

Спасибо, что живой. Реально порадовался, что результат какой-то хоть есть. Кстати, с их техлидом, я пообщался на последней AIJ и даже рассказывал про свой тест. Ребята нормальные. Ждем прогресса )

Оценка: 3 из 10

Ну что, остались мэтры и высокие ожидания.

На самом деле этот скрин не отражает реальность. ChatGPT сделал непрерывную генерацию в цикле и выглядит результат примерно так:

Chat GPT 4o mini сделал непрерывную генерацию в цикле

При этом пересечений нет в каждой из генераций. Работать с этим точно дальше можно

Оценка: 4.5 из 10

Справится ли старший брат?

Это пока похоже на лучший результат. Нет пересечений, конфигурация поинтереснее, чем у лидирующего до сих пор Qwen. Но плавности поворотов пока не видим.

Оценка: 6 из 10

Еще есть высокие ожидания от Claude Sonet. Смотрим

Интересный результат. Очевидно, модель попыталась сделать трассу из двух границ - внутренней и внешней. И почти получилось! Я бы здесь добавил минимум 0.5 бонусного балла (а может надо было и +1) по сравнению с предыдущей 4o.

Оценка: 6.5 из 10

Наконец, пришло время для темной лошадки, о которой сейчас все говорят - китайской DeepSeek. Сначала простая версия (без рассуждений)

Хорошо для полностью бесплатной. Без пересечений закольцованная трасса, правда со слишком острым одним поворотом. Но уже можно говорить, что получилось лучше, чем даже у бесплатного собрата ChatGPT mini (та справилась неплохо, но дала непрерывную генерацию в цикле)

Оценка: 5.5 из 10

Что же покажет думающая версия?

Та-дааааам. Единственная модель, которая попыталась сама с первого раза сделать плавные повороты. Я впечатлен. Реально DeepThink! Причем больше всех строк кода, целых 95 (против 50-60 в среднем). А еще он показывает процесс размышления, и это, кажется, будет новый тренд в ИИ-чатах

На скрине выше можно увидеть, как модель вдруг ппришла к плавности трассы во время рассуждений. Это все выглядит очень мило и подкупает. Да, есть артефакты на трассе. Да, конфигурация не очень сложная (за это придется сбавить). Но оно похоже на трек! Первая модель, которая захотела и смогла в плавность. Соберем оценку по критериям:

Запускается, работает, помещается в экран: +2
Закольцованная трасса: +2
Пересечений нет, но конфиг простоват: +1
Повороты плавные, но всегда есть крупный артефакт на одном повороте, что связано с методом генерации: +1.5
Попытка сделать толщину, но с артефактами: +1

Оценка: 7.5 из 10 🏆

На эмоциональном уровне DeepSeek R1 меня уже покорил! Хотя еще, как минимум, понравился Qwen. Говорят, опенсорсные небольшие модели для домашних стендов у них тоже радуют. Ну и выделю, что Claude Sonnet хвалят не зря. Ну а отдельная номинация "Самый веселый и неожиданный результат" отходит Perplexity PRO с его вязанным клубком 😆

Итоговая таблица рейтинга:

Баттл ИИ в январе 2025 - сравниваем с новым DeepSeek R1

А какой результат понравился больше вам? Использовали уже R1?

Мой канал в TG: @it_sabat — пишу там, как запускаю стартап. Из последнего: недавно зарегистрировал компанию, сейчас (на январь 2025) прохожу акселерацию.

UPDATE:

Посидел над трассой-игрой в DeepSeek R1 немного еще воскресным вечером. Добился такого результата

Интересно, что все же по мере добавления вводных R1 пришел ближе к варианту Cloude Sonet - с внешними и внутренними границами.

Баттл ИИ в январе 2025 - сравниваем с новым DeepSeek R1

LLAMA

MISTRAL

PERPLEXITY FREE

PERPLEXITY PRO

QWEN

GROK-2

GEMINI 2.0 flash thinking

GEMINI EXP

GIGA CHAT

CHAT GPT 4o mini

CHAT GPT 4o

CLAUDE 3.5 SONNET

DEEPSEEK V3

DEEPSEEK R1

ВЫВОДЫ И РЕЙТИНГ