Новая Qwen 2.5-Max от Alibaba и модели DeepSeek — чем отличаются продукты китайских разработчиков
Последняя модель Qwen, по заявлениям компании, превосходит DeepSeek V3.
- Китайская Alibaba выпустила «самую мощную» модель в своей линейке на данный момент — Qwen 2.5-Max. В отличие от предыдущих, её исходный код не выложили в открытый доступ.
- В тестах Qwen 2.5-Max сравнивают с DeepSeek V3, а не с нашумевшей моделью рассуждений R1, так как она не прописывает свои «мысли» в чате. По данным компании, Max превосходит V3 и Llama-3.1-405B в задачах на написание кода, логику и математику.
Показатели Qwen 2.5-Max в тестах. Источник: Qwen
Доступность
- Чат-боты DeepSeek и Qwen доступны бесплатно из России без ограничений на число запросов. У первого также есть приложения для iOS и Android. Однако на момент написания заметки DeepSeek приостановила регистрацию новых пользователей, а функция поиска по интернету может не работать из-за высокой нагрузки.
Скриншот vc.ru от 29 января 2025 года
Что умеют модели
Qwen 2.5-Max
- С помощью Qwen 2.5-Max можно искать информацию в интернет-источниках, генерировать изображения, решать задачи и писать код.
Интерфейс Qwen Chat
- Кнопка Artifacts позволяет увидеть результат работы кода.
Qwen 2.5-Max написала код для игры «Змейка»
- Модель генерирует изображения и умеет создавать надписи на них — но не на русском языке.
Генерация по запросу «Надпись "понедельник" блестящими металлическими буквами»
Qwen 2.5-Max попыталась нарисовать Илона Маска и Сэма Альтмана, но отказалась создавать изображение с Си Цзиньпинем
- Разработчики также научили свои модели генерировать видео.
Видео создано с помощью предыдущей модели Qwen. Источник: Taher Dhanerawala
DeepSeek
- На сайте и в приложении есть всего две кнопки: для поиска по интернету и включения модели рассуждений, которая теперь умеет расписывать свои «мысли» на русском языке.
Модель приводит свои рассуждения перед тем, как выдать ответ на задачу. Скриншот vc.ru
- Функция рассуждений позволяет R1 лучше решать задачи на логику.
- У Alibaba также есть рассуждающая модель Qwen QwQ-32B-Preview, которую можно выбрать в чат-боте. В экспресс-тесте она верно решила три задачи из шести.
- Навыки поиска DeepSeek по интернету сравнимы с ChatGPT.
DeepSeek подобрал десять спектаклей с «рейтингом» больше восьми, которые шли в Москве, привёл цены и время сеанса, дал ссылки на «Яндекс Афишу» и Ticketland. Источник: vc.ru
Qwen 2.5-Max составила список всего из трёх событий без цен и времени проведения. Сначала нашла постановки на разные даты
- DeepSeek отдельно представила свой обновлённый генератор картинок Janus Pro. Качество изображений в демоверсии не впечатлило пользователей.
Источник: Dominik Lukes
Навыки программирования
- Автор издания Zdnet Дэвид Гевирт попросил DeepSeek V3 создать плагин для WordPress для сортировки имён в списке. Бот с задачей справился.
Источник: Zdnet
- Такой же код смогла написать Qwen 2.5-Max. В ответе бот также объясняет, как его запустить.
Результат после запуска кода на WordPress. Источник: Zdnet
- Alibaba выпустила модель Qwen 2.5-Max на фоне шумихи вокруг конкурирующей DeepSeek и падения акций ИТ-компаний из разных стран. До этого у неё уже был запущен сайт с восьмью другими моделями.
- В 2024 году DeepSeek выпустила превью модели R1 с возможностью рассуждений, а в январе 2025 года — её полную версию. Через неделю чат-бот компании возглавил топ бесплатных приложений в российском и американском App Store.
The Chinese AI is taking all AI jobs
😂
Что у вас здесь происходит? Эволюция
Господи, этот код для игры в змейку так часто приводят в пример впечатляюще сложных задач, решаемых аи, что я скоро сам наизусть запомню его.
А что еще там можно показать?
Любое словесное описание на человеческом языке длиннее кода, потому что высокоуровневые и придумывали, чтобы точно описать необходимый процесс.
Зато всякие мелкие копипасты со stackoverflow удобно, если пофиг на себя и проект. Это не критика, довольно часто задача ни о чем, а че то там вникать времени нет или влом.
А так то лучше все равно лезть в тему, т.к. варианты решения разнообразны, и часто народ расписывает проблемы, которые могут возникнуть. От совместимостей до потерь.
Но пока по факту, даже если у меня змейку клиенты закажут, то будет переписано 99% строк) Если задача новая, то вообще отлично, может увижу, о чем сразу не догадался.
Так что пусть и все остальные змейку показывают для сравнения, чем всякий бред про "сама написала игру".