Баттл ИИ в январе 2025 - сравниваем с новым DeepSeek R1

Подробности далее
Подробности далее

У меня есть простой тест, по которому оцениваю ту или иную модель для своих задач. После выхода нашумевшего R1 решил пройтись этим тестом по основным популярным моделям. Сам тест представляет собой простой промпт:

Давай с помощью pygame создадим такую игру. Сначала пусть при открытии создается в рамках окна случайная закольцованная траектория — это будет трасса. Она должна полностью помещаться в границы экрана игры.

Критерии оценки

  • Код запускается без ошибок и в окне есть попытка что-то отрисовать, это что-то вмещается на экран полностью: +2 балла (считаем, что все необходимые библиотеки установлены у нас)
  • Трасса похожа на закольцованную: +2 балла
  • Пересечений нет, при этом траектория не просто окружность: +2 балла
  • Повороты плавные, а не угловатые: +2 балла
  • Бонус (у трассы есть толщина, по трассе можно "проехать", есть интересные приемы реализации): + 2 балла

Итого, максимум 10 баллов. При этом можно ставить 0.5 - 1 - 1.5, если критерий выполняется только частично.

ДИСКЛЕЙМЕР: Тест субъективен, отражает только мнение автора. Не относитесь слишком серьезно. Это лишь вариант быстрой оценки и сравнения за один промпт.

Итак, поехали! Всем моделям даем одинаковый промпт и одну попытку. Использую веб-версию по состоянию на 25.01.2025 или модель на хосте (тогда пишу ее версию).

LLAMA

llama-3.1-405b-instruct-bf16
llama-3.1-405b-instruct-bf16

Это единственная модель, которая написала имена всех переменных… на русском 😃

llama все переменные написала на русском
llama все переменные написала на русском

И этот 1С-стайл код заработал ) Правда, еще лама забыла импортировать модуль math, пришлось это сделать за нее.

Оценка: 4 из 10

MISTRAL

Mistral-large-2411
Mistral-large-2411

Очень похоже на предыдущий результат, но код запустился сразу без посторонней помощи.

Оценка: 4.5 из 10

PERPLEXITY FREE

Perplexity FREE
Perplexity FREE

Задача решена без пересечений, но очень топорно. Просто кольцо. Для NASCAR такой трек пойдет ). Отнимем за второй критерий из трех полученных.

Оценка: 5 из 10
Что там у старшего брата?

PERPLEXITY PRO

Perplexity PRO
Perplexity PRO

Когда я это увидел, то посмеялся в голос 🤣 Согласитесь, неожиданный результат. Тем более, что от PRO ждешь улучшения по сравнению с младшим братом, а тут усложнение и полный уход не туда. Зато весело.

Оценка: 2.5 из 10

QWEN

QwenMax(0919)
QwenMax(0919)

Уже интереснее... Пересечений нет, трасса не просто кольцо, хотя конфигурация и простая.

Оценка: 5.5 из 10

GROK-2

Grok-2-2024-08-13
Grok-2-2024-08-13

Модель от Маска. Останавливаемся на первом же критерии, на экран не помещается, но попытка что-то отрисовать есть.

Оценка: 1.5 из 10 💁‍♂

GEMINI 2.0 flash thinking

Gemini-2.0-flash-thinking-exp-01-21
Gemini-2.0-flash-thinking-exp-01-21

Это новая думающая универсальная модель гугла, но быстрая версия. Кажется, пока flash здесь больше, чем thinking.

Оценка: 3 из 10
Посмотрим более старую их версию - не thinking, но и не flash

GEMINI EXP

Gemini-exp-1206
Gemini-exp-1206

Ну что-то самобытное, точно ни у кого не подсмотрели ) Ввидно попытку придать закольцованность, но ездить по такой трассе, пожалуй, будет хуже даже, чем по предыдущей. Однако попытка засчитана.

Оценка: 3.5 из 10

Попробуем отечественные модели. Одна из из них выдала только белый экран, хотя дал ей три попытки. Называть ее не буду (все же тест может быть не показательным), но в итоговую табличку помещу с 0.5 баллами (за белое окно с попыткой в код). Посмотрим же на ту модель, у которой что-то получилось

GIGA CHAT

Giga Chat
Giga Chat

Спасибо, что живой. Реально порадовался, что результат какой-то хоть есть. Кстати, с их техлидом, я пообщался на последней AIJ и даже рассказывал про свой тест. Ребята нормальные. Ждем прогресса )

Оценка: 3 из 10

Ну что, остались мэтры и высокие ожидания.

CHAT GPT 4o mini

Chat GPT 4o mini
Chat GPT 4o mini

На самом деле этот скрин не отражает реальность. ChatGPT сделал непрерывную генерацию в цикле и выглядит результат примерно так:

Chat GPT 4o mini сделал непрерывную генерацию в цикле
Chat GPT 4o mini сделал непрерывную генерацию в цикле

При этом пересечений нет в каждой из генераций. Работать с этим точно дальше можно

Оценка: 4.5 из 10

Справится ли старший брат?

CHAT GPT 4o

ChatGPT 4o
ChatGPT 4o

Это пока похоже на лучший результат. Нет пересечений, конфигурация поинтереснее, чем у лидирующего до сих пор Qwen. Но плавности поворотов пока не видим.

Оценка: 6 из 10

Еще есть высокие ожидания от Claude Sonet. Смотрим

CLAUDE 3.5 SONNET

Claude-3-5-Sonnet(20241022)
Claude-3-5-Sonnet(20241022)

Интересный результат. Очевидно, модель попыталась сделать трассу из двух границ - внутренней и внешней. И почти получилось! Я бы здесь добавил минимум 0.5 бонусного балла (а может надо было и +1) по сравнению с предыдущей 4o.

Оценка: 6.5 из 10

Наконец, пришло время для темной лошадки, о которой сейчас все говорят - китайской DeepSeek. Сначала простая версия (без рассуждений)

DEEPSEEK V3

DeepSeek V3
DeepSeek V3

Хорошо для полностью бесплатной. Без пересечений закольцованная трасса, правда со слишком острым одним поворотом. Но уже можно говорить, что получилось лучше, чем даже у бесплатного собрата ChatGPT mini (та справилась неплохо, но дала непрерывную генерацию в цикле)

Оценка: 5.5 из 10

Что же покажет думающая версия?

DEEPSEEK R1

DeepSeek R1
DeepSeek R1

Та-дааааам. Единственная модель, которая попыталась сама с первого раза сделать плавные повороты. Я впечатлен. Реально DeepThink! Причем больше всех строк кода, целых 95 (против 50-60 в среднем). А еще он показывает процесс размышления, и это, кажется, будет новый тренд в ИИ-чатах

Процесс рассуждений R1
Процесс рассуждений R1

На скрине выше можно увидеть, как модель вдруг ппришла к плавности трассы во время рассуждений. Это все выглядит очень мило и подкупает. Да, есть артефакты на трассе. Да, конфигурация не очень сложная (за это придется сбавить). Но оно похоже на трек! Первая модель, которая захотела и смогла в плавность. Соберем оценку по критериям:

  • Запускается, работает, помещается в экран: +2
  • Закольцованная трасса: +2
  • Пересечений нет, но конфиг простоват: +1
  • Повороты плавные, но всегда есть крупный артефакт на одном повороте, что связано с методом генерации: +1.5
  • Попытка сделать толщину, но с артефактами: +1

Оценка: 7.5 из 10 🏆

ВЫВОДЫ И РЕЙТИНГ

На эмоциональном уровне DeepSeek R1 меня уже покорил! Хотя еще, как минимум, понравился Qwen. Говорят, опенсорсные небольшие модели для домашних стендов у них тоже радуют. Ну и выделю, что Claude Sonnet хвалят не зря. Ну а отдельная номинация "Самый веселый и неожиданный результат" отходит Perplexity PRO с его вязанным клубком 😆

Итоговая таблица рейтинга:

Баттл ИИ в январе 2025 - сравниваем с новым DeepSeek R1

А какой результат понравился больше вам? Использовали уже R1?

Мой канал в TG: @it_sabat — пишу там, как запускаю стартап. Из последнего: недавно зарегистрировал компанию, сейчас (на январь 2025) прохожу акселерацию.

UPDATE:

Посидел над трассой-игрой в DeepSeek R1 немного еще воскресным вечером. Добился такого результата

DeepSeek R1 делает из трассы игру
DeepSeek R1 делает из трассы игру

Интересно, что все же по мере добавления вводных R1 пришел ближе к варианту Cloude Sonet - с внешними и внутренними границами.

1
Начать дискуссию