Феномен DeepSeek: разбираем причины шума вокруг нейросети

Феномен DeepSeek: разбираем причины шума вокруг нейросети

Понедельник, 27 января, начался с крупнейшего однодневного падения компании в истории фондового рынка США. Акции NVIDIA упали на 18%, а прибыль снизилась на $589 миллиардов. А все из-за китайской версии «синего кита» — точнее, выхода ИИ-модели DeepSeek-R1. Издание The New Yorker назвало ситуацию «Sputnik moment», по аналогии с отправкой первого человека в космос. Тогда США осознали свое отставание от технического прогресса — и вот опять.

Но почему это вдруг произошло так резко? Ведь DeepSeek и другие китайские, европейские нейросети существовали и до 2025 года. Давайте разберемся, почему все вдруг обратили внимание на чат-бота из Поднебесной, когда вокруг так много аналогов.

Откуда взялся DeepSeek

Deepseek — это китайская лаборатория, которая занимается исследованиями в сфере ИИ. Ее основал хедж-фонд High-Flyer Capital Management в 2023 году — им нужна была нейросеть для предсказаний поведения фондового рынка. В ноябре этого же года разработчики представили первые модели: DeepSeek Coder, DeepSeek LLM и DeepSeek Chat. Они были не такими продвинутыми, как американские аналоги, но требовали таких же вычислительных мощностей, поэтому остались незамеченными.

Весной 2024 года появилась модель DeepSeek-V2. Она стоила гораздо дешевле своих китайских конкурентов и уже тогда показывала высокие результаты бенчмарков. Внимание обратили в основном китайские компании и снизили стоимость своих моделей, чтобы не уступать позиции.

И вот в январе 2025 года Deepseek представили мультимодальную размышляющую ИИ-модель R1. Использовать или даже установить к себе на устройство ее можно бесплатно, а по мощности она не уступает GPT-o1 от OpenAI и даже превосходит по некоторым функциям. Например, GPT-o1 пока не поддерживает поиск в интернете и загрузку файлов, в отличие от чат-бота Deepseek. Тестов бенчмарков со сравнениями последних моделей нет, но можно посмотреть, насколько сильно GPT-4o отстает по некоторым метрикам от R1.

Феномен DeepSeek: разбираем причины шума вокруг нейросети

Как и у последней модели OpenAI, у DeepSeek-r1 контекстное окно в 128 тысяч токенов. Но ни тесты, ни мультимодальность не сделали модель популярной.

Почему новая модель привлекла внимание

OpenAI потратили около $100 миллионов и около 3 лет на разработку GPT-4. Данные о последней модели не разглашаются. Deepseek же обучили модель за 2 месяца и потратили на это $5,5 миллионов — это в 18 раз меньше, чем американская компания. При этом специалисты из Китая задействовали всего 2 тысячи чипов NVIDIA H800. Тогда как ведущие компании в сфере ИИ используют не менее 16 тысяч, еще и более мощных чипов H100. До выпуска Deepseek инвесторы думали, что чем больше чипов — тем лучше, поэтому несли деньги в NVIDIA. Оказалось, что нет. Вот акции и обвалились.

Еще один важный показатель, на который стоит обратить внимание, — количество параметров. У DeepSeek-r1 их 671 миллиард, тогда как по неофициальным данным у GPT-4 их около 1,7 триллиона. Китайская модель не уступает американской из-за особой архитектуры. За счет применения технологии Mixture-of-Experts (MoE) во время обработки одного запроса задействуется только примерно 37 миллиардов параметров. Такой подход позволяет значительно сократить нагрузку на вычислительные мощности, сохраняя при этом высокую эффективность модели.

И последнее — цена. Модель находится в открытом доступе, любой может установить ее себе на железо. Чат-бот от DeepSeek полностью бесплатный — на февраль 2025 дополнительных подписок нет. Для разработчиков модель тоже оказалась выгодной. Вывод 1 миллиона токенов обойдется в $2,19. За GPT-o1 надо отдать $60. Думаю, вы уже посчитали, что это в 27 раз дешевле.

Если упростить все эти три абзаца: DeepSeek удалось создать мощную модель за небольшие деньги и с меньшим количеством процессоров. Это определенно инновация в мире ИИ.

Действительно ли DeepSeek так хорош

Нельзя не упомянуть недавнюю утечку данных. Событие скорее забавное, чем тревожное: пользователи сразу же обнаружили, что база оказалась в открытом доступе, и начали писать сотрудникам компании в LinkedIn. Доступ закрыли через полчаса, но остается неизвестным, успел ли кто-то сохранить файлы. В базе находились логины пользователей, списки чатов и загруженные документы. В результате конгрессменам США и сотрудникам BMC запретили скачивать и использовать чат-бот.

Кроме того, у многих вызывает вопросы качество данных, на которых обучался бот. Недавно всплыли любопытные подробности: DeepSeek обучали на общедоступных материалах, включая тексты, созданные ChatGPT и другими ИИ-ботами. Сам разговорный бот выдал себя в беседах, где неожиданно представился ChatGPT и даже продуктом компании Yandex. Сейчас эти галлюцинации исправили, но осадок остался.

Еще один нюанс — у r1 нет памяти, в отличие от моделей GPT. Промпты придется вводить заново при каждом запросе. Например, ChatGPT-4o можно поручить исправлять ошибки в тексте, не меняя в нем слова. Он будет следовать инструкции на протяжении 5–6 сообщений, а затем ее придется обновить. DeepSeek же справляется с большинством сложных задач, таких как написание кода или решение уравнений, но делает это медленнее — иногда на выполнение уходит до двух минут. GPT и Claude справляются за считанные секунды.

Мы попросили DeepSeek и GPT-4o написать каноническое уравнение прямой, проходящей через точки A=(2;2;5) и B=(0;2;−4). Оба бота справились, но у китайской модели ушло более минуты на расчеты.

Феномен DeepSeek: разбираем причины шума вокруг нейросети

С креативностью у DeepSeek-r1 все в порядке. Он составил неплохой лид к статье, хотя вышел он довольно длинным. Но времени на это ушло в два раза больше, чем у GPT-4o и Claude 3.5 Sonnet.

Феномен DeepSeek: разбираем причины шума вокруг нейросети
Феномен DeepSeek: разбираем причины шума вокруг нейросети

Сильных галлюцинаций у модели r1 не обнаружили. Без доступа к браузеру она без проблем перечислила провальные рекламные кампании и составила список книг о викторианской эпохе. Но снова — ответ пришлось ждать больше минуты.

Феномен DeepSeek: разбираем причины шума вокруг нейросети

С простым кодом нейросеть разобралась без проблем. Причем не просто выдала результат, а расписала каждый шаг в деталях. Это особенно полезно — можно сразу заметить ошибки в логике или даже подтянуть свои навыки, если только начинаешь разбираться в программировании.

В целом особого чуда не произошло. Модель DeepSeek немного уступает популярным чат-ботам. Поэтому важно самостоятельно тестировать новые модели, и проще всего это сделать на платформе LLM Arena. Здесь не требуется авторизация или оплата, а сравнивать можно сразу две модели, например DeepSeek-r1 и GPT-4o или YandexGPT.

Феномен DeepSeek: разбираем причины шума вокруг нейросети

На платформе есть своя таблица лидеров, и вы можете повлиять на расстановку сил. Но есть нюанс: чтобы оценка была честной, нужно включить анонимное сравнение. Система сама выберет две нейросети для дуэли, а вам останется только сравнить их ответы без оглядки на популярность модели.

Скандалы, интриги, расследования

SemiAnalysis опубликовал разоблачительный материал, где утверждается, что реальные расходы на обучение DeepSeek-R1 сильно превышают официальные данные. По их оценкам, сумма могла достигнуть $1,6 миллиарда. Главный аргумент: в процессе использовали 10 тысяч чипов NVIDIA H800, созданных специально для Китая, а также 10 тысяч мощных H100 — процессоров, запрещенных в стране из-за санкций США. Эксперты уверены: размах вычислений явно не вписывается в заявленный бюджет.

Феномен DeepSeek: разбираем причины шума вокруг нейросети

Американские специалисты считают, что заявленные $5 миллионов — это лишь расходы на обучение финальной модели. Зарплаты сотрудников и тестирование гипотез в эту сумму не входят.

Правительство США начало собственное расследование. Власти пытаются установить, приобретали ли в компании DeepSeek мощные процессоры H100 в обход санкций через Сингапур. В NVIDIA официально заявили, что китайский стартап не нарушал санкционные ограничения.

Сэм Альтман и Марк Цукерберг тоже очень обеспокоены, хотя и поприветствовали нового конкурента. OpenAI вместе с Microsoft начали свое расследование против DeepSeek, намереваясь доказать, что сотрудники китайской лаборатории ИИ незаконно использовали их облачные сервисы. Пока результатов нет.

Все это показывает, насколько сильно американские компании недооценили китайского соперника. И DeepSeek — далеко не единственный игрок. В январе 2025 года Alibaba представили новую модель ИИ — qwen 2.5 max, которая, согласно их тестам, превосходит чат-бота от DeepSeek и Llama-3.1-405(B). Компании SenseTime и Tencent получают значительные государственные субсидии на развитие ИИ-технологий.

Возможно, 2025 год станет рассветом китайских нейросетей. А что думаете вы?

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.

  • Как подготовиться к сбору данных, чтобы не провалиться в процессе?
  • Какие данные нужны для обучения LLM?
  • В чем специфика работы с GenAI проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными”

1
1 комментарий