Новые конкуренты ChatGPT: что нужно знать о бесплатных китайских чат-ботах DeepSeek и Qwen 2.5

В последние недели мир искусственного интеллекта (ИИ) был потрясен значительными достижениями китайских компаний, особен��о DeepSeek и Alibaba, которые представили свои передовые модели — DeepSeek-R1 и Qwen 2.5-Max соответственно. Конечно же, эти события вызвали широкий резонанс в технологическом сообществе и привели к обсуждению будущего ИИ.

Что за «зверь» этот DeepSeek и Qwen и что их появление значит для мира ИИ? Рассказывает Роман Ленц – начальник отдела анализа данных и машинного обучения ПГК Диджитал.

Новые конкуренты ChatGPT: что нужно знать о бесплатных китайских чат-ботах DeepSeek и Qwen 2.5

DeepSeek — китайская компания, специализирующаяся на искусственном интеллекте, которая недавно представила модели DeepSeek-V3 и R1. Примечательно, что им удалось достичь результатов, сопоставимых с ведущими американскими моделями, при меньших затратах (примерно 6 миллионов долларов и 2 000 графических процессоров NVIDIA H800). Для сравнения компания OpenAI потратила на тренировку своей последней модели порядка 100 миллионов долларов. Примечательно, что штат специалистов двух компаний тоже сильно отличается: согласно открытым данным, количество сотрудников DeepSeek - ~140, а OpenAI - ~3,500.

Это событие вызвало значительные колебания на рынке технологий, включая снижение акций NVIDIA (производитель чипов и основной выгодополучатель гонки ИИ) на 17%, а совокупная рыночная стоимость мировых технологических гигантов снизилась на 1 триллион долларов. Однако отметим, что рынок акций довольно быстро оправился от потрясения, так как модель из Поднебесной оказалась не так проста: многие источники отмечали, что сумма в 6 млн долларов относится только к финальной стадии процесса обучения, а также, что китайская модель задействовала наработки западных коллег.

Подход DeepSeek к обучению моделей включает:

Предварительное обучение на больших объемах текстовых данных: Модели проходят начальную тренировку, анализируя обширные текстовые корпуса (данные до октября 2023 года), что позволяет им накапливать знания и улучшать понимание языка.
Применение обучения с подкреплением: Используется метод обучения с подкреплением (reinforcement learning), при котором модели оптимизируют свои способности к рассуждению, получая обратную связь и корректируя свои действия для достижения лучших результатов.
Фокус на "мышлении вслух": Особое внимание уделяется способности моделей демонстрировать ход своих рассуждений, что облегчает процесс отладки и позволяет пользователям следить за логикой принятия решений.

Стоит отметить, что модель DeepSeek имеет открытый исходный код, доступна бесплатно для пользователей как через web-интерфейс, так и через приложение для Android и iOS, и функционирует в России без ограничений (модель может быть перегружена какое-то время из-за огромного количества поступающих запросов), в отличие от его американских конкурентов. Модель также доступна для использования по API, но это не бесплатно и зависит от количества запросов (токенов), которое вы получаете и отправляете.

Эксперты отмечают несколько ключевых аспектов:

Прорыв китайской компании в сфере ИИ: Впервые китайская фирма достигла такого уровня инноваций в области искусственного интеллекта, что ставит её в один ряд с ведущими мировыми разработчиками.
Ускорение инноваций: Успех DeepSeek стимулирует другие компании к активному развитию и внедрению новых ИИ-решений, что ускоряет общий прогресс в этой области.
Снижение затрат на разработку ИИ: Благодаря снижению затрат на разработку, DeepSeek делает передовые ИИ-технологии более доступными для широкого круга пользователей и организаций, что способствует их более широкому распространению и внедрению.

Эти факторы подчеркивают значимость DeepSeek в трансформации современного ИИ и его влиянии на будущее технологий.

В ответ на успех DeepSeek, компания Alibaba выпустила модель Qwen 2.5-Max, заявив о её превосходстве над DeepSeek-V3 по большинству показателей. Модель была презентована в первый день Лунного Нового года, что подчеркивает важность этого релиза. Эта модель, обученная на более чем 20 триллионах токенов, была дополнительно дообучена с использованием методов Supervised Fine-Tuning (то есть – с участием человека) и Reinforcement Learning from Human Feedback (обучение на основе фидбека от людей). Ключевое отличие данной модели от DeepSeek-R1 – это отсутствие «цепочки рассуждений» (chain of thought) для формирования более осмысленных и обоснованных ответов, Qwen 2.5-Max не применяет этот подход. Это может влиять на то, как модель формулирует свои ответы, возможно, делая их менее детализированными, но более быстрыми. Также в отличие от DeepSeek модель умеет генерировать изображения и видео по запросу, что является весомым плюсом для некоторых категорий пользователей.

Развитие моделей DeepSeek и Qwen 2.5 поднимает важные вопросы о будущем искусственного интеллекта:

Превосходство ИИ над человеческим интеллектом. С текущими темпами прогресса, к 2026–2027 годам мы можем столкнуться с системами ИИ, которые превзойдут человеческие способности во многих областях.
Глобальный баланс сил в сфере ИИ. Возникает вопрос о распределении влияния между странами в области ИИ-технологий, особенно между США и Китаем.
Контроль и регулирование технологий. В условиях растущей конкуренции становится актуальной тема контроля за распространением ИИ-технологий и их регулирования.
Влияние на рынок труда. С увеличением автоматизации и внедрением ИИ возрастает риск сокращения рабочих мест, особенно в секторах, где задачи могут быть полностью автоматизированы. Это требует разработки стратегий по переподготовке кадров и созданию новых рабочих мест в сферах, связанных с ИИ.

Эти аспекты требуют тщательного анализа и обсуждения, чтобы обеспечить ответственное развитие и использование искусственного интеллекта в будущем.

На основе отзывов пользователей и тестирований, DeepSeek-V3 показывает впечатляющие результаты, особенно в образовательных задачах и сложных математических проблемах. Она опережает многие открытые модели и демонстрирует производительность, сопоставимую с ChatGPT-4o и Claude-3.5-Sonnet.

С другой стороны, Qwen 2.5-Max позиционируется как более универсальная модель, которая превосходит DeepSeek-V3 по многим параметрам (следует из опубликованных бенчмарков ребятами из Alibaba). Пользователи отмечают её высокую точность и способность решать сложные задачи, что делает её серьёзным конкурентом.

Обе модели поддерживают функцию поиска в интернете, которую необходимо активировать перед отправкой запроса. Это особенно полезно, когда требуется актуальная информация, выходящая за рамки данных, использованных при обучении модели.

Для рядового пользователя разница использования моделей такого уровня будет не сильно ощутима, нюансы будут крыться в очень специфичных задачах.

На мой взгляд, ChatGPT-4o от OpenAI превосходит DeepSeek-V3 и Qwen 2.5-Max по стилю и структуре ответов. Его формулировки более точные, а логика изложения — последовательная и естественная.

Кроме того, при работе с загруженными файлами, особенно PDF-документами, я столкнулся с ошибками в DeepSeek и Qwen, в то время как ChatGPT-4o справился с обработкой данных без сбоев. Это может быть критичным для пользователей, которые активно работают с документами и аналитическими материалами.

Важно понимать, что DeepSeek-V3 и Qwen 2.5-Max — относительно новые модели, и они всё ещё находятся в процессе доработки. Их тестирование продолжается, разработчики анализируют обратную связь, а значит, в будущем эти модели могут стать ещё более мощными и точными. Время покажет, смогут ли они на «голову» превзойти конкурентов, но уже сейчас они представляют собой очень достойные альтернативы.

В целях сравнения я задал всем трём моделям — DeepSeek-V3, Qwen 2.5-Max и ChatGPT-4o — один и тот же простой вопрос, чтобы оценить, как они с ним справятся и какие особенности структуры ответа каждая из них продемонстрирует. Результаты этого теста представлены ниже.

Этот вопрос уже задавали исследователи другим моделям для оценки их ответов (ещё до того, как были выпущены модели Qwen-2.5-Max и DeepSeek-V3) и, как мы видим, справиться с этой задачей на логику смогла только модель от DeepSeek.

Обе модели, DeepSeek и Qwen 2.5, имеют одно важное преимущество для пользователей из России: они не требуют подключения через VPN, в отличие, например, от ChatGPT и Claude, которые до сих пор доступны только через специальные обходные пути.

Кроме того, обе модели полностью бесплатны для использования (как минимум пока). Бери и пользуйся — не нужно покупать подписки или платить за токены, как это часто бывает с другими ИИ-сервисами.

Это делает их идеальным выбором для тех, кто хочет получить доступ к передовым технологиям без дополнительных затрат.

Подписаться на наш TG

Новые конкуренты ChatGPT: что нужно знать о бесплатных китайских чат-ботах DeepSeek и Qwen 2.5

Что такое DeepSeek

Как работает эта нейронка

Как DeepSeek меняет ландшафт ИИ

Qwen 2.5: Ответ Alibaba ⚔

Что дальше?

Какая модель лучше?

Мнение автора

Преимущества DeepSeek и Qwen 2.5 для российских пользователей