DeepSeek-R1 против QwQ-32B от Alibaba — сравнение рассуждающих моделей от китайских компаний

Привели примеры, как они пишут код, SQL-запрос и создают игру.

  • В начале марта 2025 года Alibaba выпустила рассуждающую модель QwQ-32B. Компания заявляет, что в некоторых тестах она превзошла o1-mini от Open AI и приблизилась к результатам DeepSeek-R1. При этом QwQ-32B — это модель меньших размеров. У неё 32 млрд параметров против 671 млрд у DeepSeek-R1.
Пользователь попросил модели создать код для «потрясающей» анимации с помощью библиотеки p5.js. Источник: Zho

Сравнительные тесты

Создать страницу со строкой для ввода данных

  • Задание: «Создай единый файл для веб-приложения с использованием HTML, CSS и JavaScript, где пользователь может ввести своё имя и получить персональное приветствие».

DeepSeek-R1

DeepSeek-R1 сделала три варианта приветствия с разными иконками. Пользователю «пожелают» доброго утра, дня или ночи в зависимости от времени суток. Источник здесь и далее: vc.ru
DeepSeek-R1 сделала три варианта приветствия с разными иконками. Пользователю «пожелают» доброго утра, дня или ночи в зависимости от времени суток. Источник здесь и далее: vc.ru

QwQ-32B

QwQ-32B буквально восприняла запрос и назвала форму «Генератор персональных приветствий»
QwQ-32B буквально восприняла запрос и назвала форму «Генератор персональных приветствий»

Дополнить код и перевести интерфейс на русский язык

  • Задание (в этом тесте промпт введён на русском): «Теперь переведи все надписи на русский язык. Сделай так, чтобы после приветствия появилось поле "Ваш возраст" для ввода возраста пользователя».

DeepSeek-R1

DeepSeek-R1 справилась с переводом надписей и добавила кнопку «Подтвердить возраст» — после нажатия на неё ничего не происходит. Но модель дала возможность указать отрицательное число возраста

QwQ-32B

QwQ-32B не повторила ошибку с отрицательными числами. Модель также сделала работающую кнопку «Отправить возраст», после нажатия которой автоматически заполняется следующее поле 

Написать SQL-запрос

  • Задание: «Напиши SQL-запрос, чтобы найти трёх крупнейших клиентов с наибольшим общим объёмом платежей в базе данных Sakila. Отобрази в таблице результатов имя, фамилию и общую сумму платежей клиентов в first_name, last_name и total_pay соответственно. Отсортируй результаты по total_pay в порядке убывания. Для написания ответа используй синтаксис MySQL».
  • Обе модели справились с написанием запроса, но затраты на его выполнение на 4000 единиц больше, чем стоимость лучшего результата на платформе для самопроверки SQLtest.
Итоговая таблица после выполнения SQL-запроса обеих моделей
Итоговая таблица после выполнения SQL-запроса обеих моделей

DeepSeek-R1

Код, написанный DeepSeek-R1
Код, написанный DeepSeek-R1

QwQ-32B

Код, написанный QwQ-32B
Код, написанный QwQ-32B

Написать код для игры

  • Задание: «Создай 2D-шутер, в котором игрок управляет космическим кораблём в нижней части экрана и стреляет вверх, чтобы поразить корабли инопланетян, движущиеся вниз по экрану. В игре можно двигаться влево и вправо и стрелять. Должен быть подсчёт очков и уведомление о конце игры после проигрыша. Всё в одном файле для HTML, CSS и JavaScript».

DeepSeek-R1

Модель учла все условия: в игре можно управлять кораблём с помощью стрелок и стрелять, нажимая пробел. Каждый сбитый корабль приносит десять очков, а при столкновении игра заканчивается

QwQ-32B

QwQ-32B выбрала другой вид инопланетных кораблей. Смерть наступает, даже если уничтожен ряд противника. Кнопка перезапуска игры не работает, нужно перезагружать страницу

Создать файл SVG

  • Задание: «Напиши код файла в формате SVG для геймпада».

DeepSeek-R1

DeepSeek-R1 против QwQ-32B от Alibaba — сравнение рассуждающих моделей от китайских компаний

QwQ-32B

У неё получился аркадный джойстик. Модель анимировала файл, хотя «подумала»: «Погодите, пользователь сказал "нарисовать SVG геймпада", возможно, анимация не нужна». 

Создать анимированный SVG

  • Задание: «Ты хочешь быть открытой моделью? Ответь одним словом. Представь ответ в виде анимированного зацикленного SVG». Тест придумал пользователь соцсети X.

DeepSeek-R1

Модель ответила «Да» и добавила изменение цвета текста

QwQ-32B

В этом примере выбран один цвет

Тест на внимательность и знание русского: посчитать буквы и слова в предложении

  • Задание: «Напиши одно предложение про щенка. Скажи, сколько слов написал в этом предложении. Потом назови вторую букву во втором слове. Это гласная или согласная?».

DeepSeek-R1

Модель верно ответила на вопросы
Модель верно ответила на вопросы

QwQ-32B

QwQ-32B ошиблась в подсчёте слов и придумала, что в слове «щенок» есть буква «х». При этом модели написали очень похожие предложения
QwQ-32B ошиблась в подсчёте слов и придумала, что в слове «щенок» есть буква «х». При этом модели написали очень похожие предложения

Итоги

  • DeepSeek-R1 справилась со всеми задачами. QwQ-32B выполнила четыре задания из семи. Она не смогла создать полностью функциональную игру, неверно посчитала слова в предложении и назвала неправильную букву, а ещё запуталась, когда рисовала геймпад в формате SVG.
  • При этом к другим заданиям модель от Alibaba подошла менее «креативно», в то время как DeepSeek-R1 добавляла в интерфейс смайлики и разные цвета.

Где пользоваться моделями

  • QwQ-32B появилась в бесплатном чат-боте Qwen Chat. Компания выложила веса модели на HuggingFace. Она ещё не доступна для работы через API.
  • DeepSeek-R1 доступна бесплатно на сайте и в приложениях для iOS и Android. Её также можно скачать с HuggingFace. Компания снова начала принимать платежи за работу через API, которые приостановили 6 февраля 2025 года. Стоимость — $0,55 за 1 млн входящих токенов и $2,19 за 1 млн исходящих (около 48 и 193 рублей по курсу ЦБ на 11 марта 2025 года).
11
3
1
1
28 комментариев