Как китайский стартап DeepSeek бросил вызов OpenAI в сфере искусственного интеллекта

Как китайский стартап DeepSeek бросил вызов OpenAI в сфере искусственного интеллекта

Привет! На связи Шерпа Роботикс, вендор платформ для роботизации бизнес-процессов. Cегодня мы перевели для вас статью, посвященную нашумевшему китайскому стартапу DeepSeek.

Эта история началось с того, что основатель китайского квантового хедж-фонда Лян Вэньфэн решил заняться исследованиями в области искусственного интеллекта. Лян приобрел 10 000 процессоров Nvidia и собрал команду молодых и амбициозных специалистов. Спустя два года его компания DeepSeek уже громко заявила о себе на мировом рынке.

20 января малоизвестная китайская лаборатория DeepSeek представила ИИ-модель с открытым исходным кодом, которая мгновенно привлекла внимание экспертов Кремниевой долины. Согласно исследованию самой компании, их модель DeepSeek-R1 превосходит ведущие разработки, включая продукты OpenAI, по целому ряду показателей в области математики и логического мышления. По сути, DeepSeek уже сейчас успешно конкурирует с западными гигантами ИИ по ключевым параметрам: функциональности, экономичности и открытости.

Успех DeepSeek стал неожиданным результатом технологического противостояния между США и Китаем. Американские ограничения на экспорт существенно сократили возможности китайских компаний конкурировать в сфере ИИ традиционным западным способом — бесконечно наращивая мощности за счет закупки новых чипов и увеличения времени обучения моделей. В результате большинство китайских компаний сосредоточились на разработке прикладных решений вместо создания собственных моделей. Однако DeepSeek показала, что существует альтернативный путь к успеху: пересмотр базовой архитектуры ИИ-моделей и более рациональное использование имеющихся ресурсов.

"В отличие от многих китайских ИИ-компаний, которые критически зависят от доступа к современному оборудованию, DeepSeek сделала ставку на максимальную оптимизацию программной составляющей", — поясняет Марина Чжан, доцент Сиднейского технологического университета, специализирующаяся на изучении китайских инноваций. "DeepSeek взяла на вооружение принципы открытого кода, объединяя экспертные знания и стимулируя совместные инновации. Такой подход не только помогает преодолеть ресурсные ограничения, но и ускоряет развитие передовых технологий, что выгодно отличает компанию от более закрытых конкурентов".

От финансов к искусственному интеллекту

DeepSeek выделяется даже на фоне других китайских ИИ-компаний. Компания выросла из подразделения Fire-Flyer, занимавшегося глубоким обучением в составе High-Flyer — одного из ведущих квантовых хедж-фондов Китая. Основанный в 2015 году, High-Flyer стремительно набрал обороты, став первым квантовым фондом в стране с активами более 100 миллиардов юаней (около 15 миллиардов долларов). Несмотря на то, что к 2021 году эта сумма сократилась примерно до 8 миллиардов долларов, High-Flyer сохраняет позиции одного из крупнейших квантовых фондов страны.

На протяжении нескольких лет High-Flyer планомерно наращивал парк графических процессоров и развивал суперкомпьютерные мощности Fire-Flyer для анализа финансовых данных. В 2023 году Лян, имеющий степень магистра в области компьютерных наук, принял решение направить ресурсы фонда на создание новой компании — DeepSeek. Её амбициозная цель — разработка передовых моделей ИИ и, в перспективе, создание искусственного общего интеллекта. Это можно сравнить с ситуацией, если бы инвестиционная компания уровня Jane Street вдруг решила стать ИИ-стартапом и вложить все средства в научные исследования.

Столь смелое решение оказалось оправданным. "DeepSeek представляет новую волну китайских технологических компаний, которые ставят долгосрочное технологическое развитие выше быстрой коммерческой выгоды", — отмечает Чжан.

Команда молодых талантов

При формировании исследовательской команды DeepSeek Лян сделал неожиданный выбор: вместо опытных инженеров-практиков он сделал ставку на недавних выпускников ведущих китайских вузов — Пекинского университета и университета Цинхуа. Эти молодые специалисты, несмотря на отсутствие опыта работы в индустрии, уже успели заявить о себе публикациями в престижных научных журналах и наградами на международных конференциях, как отмечает китайское технологическое издание QBitAI.

"Костяк нашей технической команды составляют специалисты, окончившие университет в этом году или в течение последних двух лет", — рассказал Лян в интервью изданию 36Kr в 2023 году. Такой подход к найму способствовал формированию особой корпоративной культуры, где сотрудники могли свободно использовать значительные вычислительные ресурсы для реализации нестандартных исследовательских проектов.

Прорыв в условиях ограничений

Ситуация осложнилась в октябре 2022 года, когда США ввели экспортные ограничения, существенно затруднившие доступ китайских ИИ-компаний к передовым чипам, включая Nvidia H100. Для DeepSeek это создало серьезную проблему: начав с запаса в 10 000 процессоров H100, компании требовалось значительно больше для конкуренции с такими гигантами, как OpenAI и Meta. "Нашим главным препятствием стал не недостаток финансирования, а ограничения на экспорт передовых чипов", — признал Лян в интервью 36Kr в 2024 году.

В этих условиях DeepSeek пришлось разработать принципиально новые подходы к обучению моделей. "Они оптимизировали архитектуру своих моделей с помощью целого комплекса инженерных решений: усовершенствовали схемы взаимодействия между чипами, сократили объём используемой памяти и внедрили инновационный подход к комбинированию моделей", — поясняет Венди Чанг, бывший программист, а ныне аналитик Института китайских исследований Меркатора.

Эти достижения могут поставить под сомнение эффективность американской стратегии экспортных ограничений, направленной на создание дефицита вычислительных ресурсов. "Существующие оценки китайских возможностей в сфере ИИ и прогнозы их достижений могут потребовать серьезного пересмотра", — заключает Чанг.

2
1 комментарий

Вы только сейчас это сделали?)