Китай наступает: стоит ли переходить на Qwen2.5-Max?

Если вы уже устали от новостей про DeepSeek, то вот свежий повод для обсуждений — Alibaba представила новую модель Qwen2.5-Max. Я протестировал её, сравнил с конкурентами и готов поделиться своими впечатлениями.

Китай наступает: стоит ли переходить на Qwen2.5-Max?

Меня зовут Кирилл Пшинник, я фаундер и CEO Университета Зерокодер. За последние два года наша команда обучила более 8 000 сотрудников российских компаний работе с искусственным интеллектом.

Если хотите глубже разобраться в китайских нейросетях, я провожу бесплатный вебинар, где разберу все последние новинки и покажу, чем они отличаются от западных аналогов. Залетайте!

Что такое Qwen2.5-Max?

Qwen2.5-Max — новая крупномасштабная языковая модель от Alibaba Cloud, построенная на архитектуре Mixture-of-Experts (MoE). Она прошла предварительное обучение на 20+ триллионах токенов и дополнительно дообучена с использованием методов контролируемого обучения (SFT) и обучения с подкреплением на основе обратной связи от человека (RLHF).

Попробовать модель можно бесплатно в чате QwenChat: chat.qwenlm.ai

На первый взгляд Qwen выглядит как привычный чат-бот, интерфейс интуитивно понятен. Сервис доступен в России, регистрация проходит через почту/пароль или аккаунт Gmail. Модель уже интегрирована в API Alibaba Cloud, и его можно использовать с территории России.

Чем Qwen2.5-Max отличается от других нейросетей?

В тестах, таких как MMLU-Pro, LiveCodeBench, LiveBench и Arena-Hard, Qwen2.5-Max продемонстрировала превосходство над моделями DeepSeek V3, GPT-4o и Claude-3.5-Sonnet.

Qwen2.5-Max превосходит DeepSeek V3 в бенчмарках, таких как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также показывает конкурентоспособные результаты в других тестах, включая MMLU-Pro.
Qwen2.5-Max превосходит DeepSeek V3 в бенчмарках, таких как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также показывает конкурентоспособные результаты в других тестах, включая MMLU-Pro.
Базовые модели продемонстрировали значительные преимущества в большинстве бенчмарков
Базовые модели продемонстрировали значительные преимущества в большинстве бенчмарков

Звучит впечатляюще, не так ли?

Но прежде чем делать выводы о том, стоит ли переходить на новую китайскую нейросеть в работе, давайте разберёмся, что именно измеряют бенчмарки. В исследовании упоминаются тесты MMLU-Pro, LiveCodeBench, LiveBench и Arena-Hard. Они оценивают способности моделей в логике, математике и программировании.

Что тестируют бенчмарки?

  • MMLU (Massive Multitask Language Understanding) и MMLU-Pro — это тесты, проверяющие умение модели рассуждать. MMLU-Pro включает более 12 000 тщательно отобранных вопросов из академических экзаменов и учебников по 14 дисциплинам, включая биологию, бизнес, химию, экономику, право, философию, математику и другие.
    ✍ Проще говоря, этот тест оценивает знание предметов и способность делать логические выводы на их основе.
  • LiveCodeBench — бенчмарк для оценки навыков программирования. Он постоянно обновляется, собирая задачи с LeetCode, AtCoder и CodeForces, что делает тесты более актуальными.
  • Arena-Hard — автоматизированная система оценки качества ответов, использующая метод LLM-as-a-Judge (модель как судья). Она показывает высокую корреляцию с человеческими оценками и помогает объективно сравнивать нейросети.

Часто модели сравнивают именно по этим бенчмаркам. Однако важно помнить, что принцип работы трансформеров заключается в предсказании следующего токена (слова). Например, когда мы спрашиваем у нейросети:

Сколько будет 2+2?

Она выдаёт "4" не потому, что просчитала ответ, а потому что в её обучающей выборке миллионы раз встречался этот вопрос с таким ответом. Это легко проверить, если попросить её сложить два больших числа — модель часто ошибается.

Пример ошибки в вычислениях в ChatGPT с моделью GPT4o
Пример ошибки в вычислениях в ChatGPT с моделью GPT4o

Как видно, ChatGPT на базе GPT-4o ошибся в вычислениях. Точно так же ошибается и Qwen2.5-Max.

Qwen2.5-Max так же неправильно делает вычисления
Qwen2.5-Max так же неправильно делает вычисления

Почему бенчмарки не всегда показательны?

Эта проблема была очевидна давно, поэтому в 2023 году OpenAI добавила в ChatGPT плагины, позволяющие подключать его к сторонним сервисам, таким как Wolfram Alpha для сложных вычислений и интернет-поиск для актуальной информации.

Позже OpenAI изменила стратегию: убрала плагины, добавила поиск в интернете, добавила исполнение Python-кода прямо в чате для математических задач.

Однако важный нюанс: этот функционал есть только в чат-боте ChatGPT, но его нет в модели GPT-4o, доступной через API.

А в бенчмарках сравниваются именно модели. То есть, когда мы видим таблицы с результатами тестов, это не всегда отражает реальный пользовательский опыт, ведь в реальной жизни нейросети используют не только модель, но и дополнительные сервисы.

Qwen2.5-Max против DeepSeek-V3

В сравнении с DeepSeek-V3 новая модель от Alibaba показывает лёгкое превосходство в тестах — разница составляет несколько пунктов.

Однако в реальной работе это почти не ощущается. Например:

- В текстовых задачах Qwen2.5-Max формально сильнее, но субъективно уступает ChatGPT и DeepSeek.

- При написании текстов модель показала себя хуже, чем ChatGPT и DeepSeek.

- Qwen2.5-Max активно модерирует свои ответы, особенно на чувствительные темы.

Пример политически-ангажированного ответа нейросети
Пример политически-ангажированного ответа нейросети

При этом DeepSeek-R1 дает более нейтральный ответ.

Пример ответа на политически спорную тему от DeepSeek-R1
Пример ответа на политически спорную тему от DeepSeek-R1

Хотя бенчмарки дают количественные метрики, они не всегда отражают реальное качество работы модели. На практике решает не только уровень модели, но и инструменты, которые её дополняют.

Так что, если вы выбираете нейросеть для реальной работы, ориентироваться стоит не только на цифры, но и на конечный пользовательский опыт.

Модели с размышлением.

В отличие от Qwen2.5-Max, модели o1 от OpenAI и R1 от китайской компании DeepSeek представляют собой значительный шаг вперёд в развитии искусственного интеллекта, особенно в области моделирования процессов размышления. Эти модели созданы для решения сложных задач, требующих глубокого анализа и логических рассуждений.

OpenAI o1 решает задачу без использования Python, но при этом тратит около 5 минут, тщательно анализируя условия.
OpenAI o1 решает задачу без использования Python, но при этом тратит около 5 минут, тщательно анализируя условия.

DeepSeek R1 справляется всего за 18 секунд, при этом процесс её размышлений виден пользователю.

Китай наступает: стоит ли переходить на Qwen2.5-Max?

Этот новый подход делает взаимодействие с моделью более прозрачным: сначала нейросеть анализирует задачу с разных сторон, затем предлагает несколько вариантов решения и только после этого формирует окончательный ответ. Наблюдать за этим процессом по-настоящему увлекательно — создаётся ощущение, будто модель действительно размышляет, а не просто выдаёт заготовленные ответы.

Стоит переходить на Qwen2.5-Max

Выход любой новой нейросети — это хорошая новость. Чем больше доступных моделей, тем больше выбор у пользователей. Более того, Qwen2.5-Max распространяется в формате Open Source, что позволяет компаниям скачивать, развертывать и обучать модель на своих данных, адаптируя её под конкретные задачи.

Важно отметить, что Китай быстро ворвался в гонку ИИ и сразу выбился в лидеры. Это подтверждают не только результаты бенчмарков, но и политические заявления. Например, Дональд Трамп назвал китайский ИИ серьёзной угрозой для США.

Чем Qwen2.5-Max лучше или хуже?

- Если вы пользуетесь ChatGPT Plus, переход на Qwen2.5-Max вряд ли принесёт ощутимые преимущества. Более того, у модели нет ряда привычных функций, а информация может иметь "китайский национальный окрас".

- Если у вас нет доступа к платному ChatGPT, Qwen2.5-Max может быть достойной альтернативой российским GigaChat и YandexGPT.

Лучшая альтернатива?

Лично я рекомендую попробовать DeepSeek. По моему опыту, она даёт более качественные ответы, опережает GPT-4o и Qwen2.5-Max в бенчмарках и ощутимо лучше в реальной работе. DeepSeek доступна бесплатно в России, не требует сложной регистрации и работает без VPN и обходных методов. Если вы ищете сильную альтернативу, обязательно попробуйте.

9
37
2
9 комментариев

На работе только и разговоров об этом deepseek 🤣

7

Теперь этот китайский ии даже по новостям показывают

Куда летит прогресс. Кажется, буквально только что обсуждали новую прорывную GPT, а тут уже китайцы впереди планеты всей

4

Приятно видеть настоящий анализ, а не просто описание

3

Невероятно начинается 2025. Если в прошлом году мы смотрели на изменения по дням, то сейчас счет идет на часы..Очень любопытно наблюдать на медленное, но, кажется неизбежное падение США с пъедестала почета в ИИ-мире..

2

Пъедетал только формируется

2

Лучше промолчать, умнее будешь казаться