DeepSeek-R1 против QwQ-32B от Alibaba — сравнение рассуждающих моделей от китайских компаний
Привели примеры, как они пишут код, SQL-запрос и создают игру.
- В начале марта 2025 года Alibaba выпустила рассуждающую модель QwQ-32B. Компания заявляет, что в некоторых тестах она превзошла o1-mini от Open AI и приблизилась к результатам DeepSeek-R1. При этом QwQ-32B — это модель меньших размеров. У неё 32 млрд параметров против 671 млрд у DeepSeek-R1.
Пользователь попросил модели создать код для «потрясающей» анимации с помощью библиотеки p5.js. Источник: Zho
Сравнительные тесты
Создать страницу со строкой для ввода данных
- Задание: «Создай единый файл для веб-приложения с использованием HTML, CSS и JavaScript, где пользователь может ввести своё имя и получить персональное приветствие».
DeepSeek-R1
DeepSeek-R1 сделала три варианта приветствия с разными иконками. Пользователю «пожелают» доброго утра, дня или ночи в зависимости от времени суток. Источник здесь и далее: vc.ru
QwQ-32B
QwQ-32B буквально восприняла запрос и назвала форму «Генератор персональных приветствий»
Дополнить код и перевести интерфейс на русский язык
- Задание (в этом тесте промпт введён на русском): «Теперь переведи все надписи на русский язык. Сделай так, чтобы после приветствия появилось поле "Ваш возраст" для ввода возраста пользователя».
DeepSeek-R1
DeepSeek-R1 справилась с переводом надписей и добавила кнопку «Подтвердить возраст» — после нажатия на неё ничего не происходит. Но модель дала возможность указать отрицательное число возраста
QwQ-32B
QwQ-32B не повторила ошибку с отрицательными числами. Модель также сделала работающую кнопку «Отправить возраст», после нажатия которой автоматически заполняется следующее поле
Написать SQL-запрос
- Задание: «Напиши SQL-запрос, чтобы найти трёх крупнейших клиентов с наибольшим общим объёмом платежей в базе данных Sakila. Отобрази в таблице результатов имя, фамилию и общую сумму платежей клиентов в first_name, last_name и total_pay соответственно. Отсортируй результаты по total_pay в порядке убывания. Для написания ответа используй синтаксис MySQL».
- Обе модели справились с написанием запроса, но затраты на его выполнение на 4000 единиц больше, чем стоимость лучшего результата на платформе для самопроверки SQLtest.
Итоговая таблица после выполнения SQL-запроса обеих моделей
DeepSeek-R1
Код, написанный DeepSeek-R1
QwQ-32B
Код, написанный QwQ-32B
Написать код для игры
- Задание: «Создай 2D-шутер, в котором игрок управляет космическим кораблём в нижней части экрана и стреляет вверх, чтобы поразить корабли инопланетян, движущиеся вниз по экрану. В игре можно двигаться влево и вправо и стрелять. Должен быть подсчёт очков и уведомление о конце игры после проигрыша. Всё в одном файле для HTML, CSS и JavaScript».
DeepSeek-R1
Модель учла все условия: в игре можно управлять кораблём с помощью стрелок и стрелять, нажимая пробел. Каждый сбитый корабль приносит десять очков, а при столкновении игра заканчивается
QwQ-32B
QwQ-32B выбрала другой вид инопланетных кораблей. Смерть наступает, даже если уничтожен ряд противника. Кнопка перезапуска игры не работает, нужно перезагружать страницу
Создать файл SVG
- Задание: «Напиши код файла в формате SVG для геймпада».
DeepSeek-R1
QwQ-32B
У неё получился аркадный джойстик. Модель анимировала файл, хотя «подумала»: «Погодите, пользователь сказал "нарисовать SVG геймпада", возможно, анимация не нужна».
Создать анимированный SVG
- Задание: «Ты хочешь быть открытой моделью? Ответь одним словом. Представь ответ в виде анимированного зацикленного SVG». Тест придумал пользователь соцсети X.
DeepSeek-R1
Модель ответила «Да» и добавила изменение цвета текста
QwQ-32B
В этом примере выбран один цвет
Тест на внимательность и знание русского: посчитать буквы и слова в предложении
- Задание: «Напиши одно предложение про щенка. Скажи, сколько слов написал в этом предложении. Потом назови вторую букву во втором слове. Это гласная или согласная?».
DeepSeek-R1
Модель верно ответила на вопросы
QwQ-32B
QwQ-32B ошиблась в подсчёте слов и придумала, что в слове «щенок» есть буква «х». При этом модели написали очень похожие предложения
Итоги
- DeepSeek-R1 справилась со всеми задачами. QwQ-32B выполнила четыре задания из семи. Она не смогла создать полностью функциональную игру, неверно посчитала слова в предложении и назвала неправильную букву, а ещё запуталась, когда рисовала геймпад в формате SVG.
- При этом к другим заданиям модель от Alibaba подошла менее «креативно», в то время как DeepSeek-R1 добавляла в интерфейс смайлики и разные цвета.
Где пользоваться моделями
- QwQ-32B появилась в бесплатном чат-боте Qwen Chat. Компания выложила веса модели на HuggingFace. Она ещё не доступна для работы через API.
- DeepSeek-R1 доступна бесплатно на сайте и в приложениях для iOS и Android. Её также можно скачать с HuggingFace. Компания снова начала принимать платежи за работу через API, которые приостановили 6 февраля 2025 года. Стоимость — $0,55 за 1 млн входящих токенов и $2,19 за 1 млн исходящих (около 48 и 193 рублей по курсу ЦБ на 11 марта 2025 года).
28 комментариев