DeepSeek-R1 против QwQ-32B от Alibaba — сравнение рассуждающих моделей от китайских компаний

Привели примеры, как они пишут код, SQL-запрос и создают игру.

В начале марта 2025 года Alibaba выпустила рассуждающую модель QwQ-32B. Компания заявляет, что в некоторых тестах она превзошла o1-mini от Open AI и приблизилась к результатам DeepSeek-R1. При этом QwQ-32B — это модель меньших размеров. У неё 32 млрд параметров против 671 млрд у DeepSeek-R1.

Пользователь попросил модели создать код для «потрясающей» анимации с помощью библиотеки p5.js. Источник: Zho

Тесты QwQ-32B от Alibaba и DeepSeek-R1
Итоги
Где протестировать и скачать модели

Задание: «Создай единый файл для веб-приложения с использованием HTML, CSS и JavaScript, где пользователь может ввести своё имя и получить персональное приветствие».

DeepSeek-R1 сделала три варианта приветствия с разными иконками. Пользователю «пожелают» доброго утра, дня или ночи в зависимости от времени суток. Источник здесь и далее: vc.ru

QwQ-32B буквально восприняла запрос и назвала форму «Генератор персональных приветствий»

Задание (в этом тесте промпт введён на русском): «Теперь переведи все надписи на русский язык. Сделай так, чтобы после приветствия появилось поле "Ваш возраст" для ввода возраста пользователя».

DeepSeek-R1 справилась с переводом надписей и добавила кнопку «Подтвердить возраст» — после нажатия на неё ничего не происходит. Но модель дала возможность указать отрицательное число возраста

QwQ-32B не повторила ошибку с отрицательными числами. Модель также сделала работающую кнопку «Отправить возраст», после нажатия которой автоматически заполняется следующее поле

Задание: «Напиши SQL-запрос, чтобы найти трёх крупнейших клиентов с наибольшим общим объёмом платежей в базе данных Sakila. Отобрази в таблице результатов имя, фамилию и общую сумму платежей клиентов в first_name, last_name и total_pay соответственно. Отсортируй результаты по total_pay в порядке убывания. Для написания ответа используй синтаксис MySQL».
Обе модели справились с написанием запроса, но затраты на его выполнение на 4000 единиц больше, чем стоимость лучшего результата на платформе для самопроверки SQLtest.

Итоговая таблица после выполнения SQL-запроса обеих моделей

Задание: «Создай 2D-шутер, в котором игрок управляет космическим кораблём в нижней части экрана и стреляет вверх, чтобы поразить корабли инопланетян, движущиеся вниз по экрану. В игре можно двигаться влево и вправо и стрелять. Должен быть подсчёт очков и уведомление о конце игры после проигрыша. Всё в одном файле для HTML, CSS и JavaScript».

Модель учла все условия: в игре можно управлять кораблём с помощью стрелок и стрелять, нажимая пробел. Каждый сбитый корабль приносит десять очков, а при столкновении игра заканчивается

QwQ-32B выбрала другой вид инопланетных кораблей. Смерть наступает, даже если уничтожен ряд противника. Кнопка перезапуска игры не работает, нужно перезагружать страницу

Задание: «Напиши код файла в формате SVG для геймпада».

DeepSeek-R1 против QwQ-32B от Alibaba — сравнение рассуждающих моделей от китайских компаний

У неё получился аркадный джойстик. Модель анимировала файл, хотя «подумала»: «Погодите, пользователь сказал "нарисовать SVG геймпада", возможно, анимация не нужна».

Задание: «Ты хочешь быть открытой моделью? Ответь одним словом. Представь ответ в виде анимированного зацикленного SVG». Тест придумал пользователь соцсети X.

Модель ответила «Да» и добавила изменение цвета текста

В этом примере выбран один цвет

Задание: «Напиши одно предложение про щенка. Скажи, сколько слов написал в этом предложении. Потом назови вторую букву во втором слове. Это гласная или согласная?».

QwQ-32B ошиблась в подсчёте слов и придумала, что в слове «щенок» есть буква «х». При этом модели написали очень похожие предложения

DeepSeek-R1 справилась со всеми задачами. QwQ-32B выполнила четыре задания из семи. Она не смогла создать полностью функциональную игру, неверно посчитала слова в предложении и назвала неправильную букву, а ещё запуталась, когда рисовала геймпад в формате SVG.
При этом к другим заданиям модель от Alibaba подошла менее «креативно», в то время как DeepSeek-R1 добавляла в интерфейс смайлики и разные цвета.

QwQ-32B появилась в бесплатном чат-боте Qwen Chat. Компания выложила веса модели на HuggingFace. Она ещё не доступна для работы через API.
DeepSeek-R1 доступна бесплатно на сайте и в приложениях для iOS и Android. Её также можно скачать с HuggingFace. Компания снова начала принимать платежи за работу через API, которые приостановили 6 февраля 2025 года. Стоимость — $0,55 за 1 млн входящих токенов и $2,19 за 1 млн исходящих (около 48 и 193 рублей по курсу ЦБ на 11 марта 2025 года).

#редакция #deepseek #alibaba

DeepSeek-R1 против QwQ-32B от Alibaba — сравнение рассуждающих моделей от китайских компаний

Сравнительные тесты

Создать страницу со строкой для ввода данных

DeepSeek-R1

QwQ-32B

Дополнить код и перевести интерфейс на русский язык

DeepSeek-R1

QwQ-32B

Написать SQL-запрос

DeepSeek-R1

QwQ-32B

Написать код для игры

DeepSeek-R1

QwQ-32B

Создать файл SVG

DeepSeek-R1

QwQ-32B

Создать анимированный SVG

DeepSeek-R1

QwQ-32B

Тест на внимательность и знание русского: посчитать буквы и слова в предложении

DeepSeek-R1

QwQ-32B

Итоги

Где пользоваться моделями