Какие вопросы ставит успех DeepSeek и какие сейчас есть ответы

🔥 Еще больше интересного в моем канале Продуктовые штучки

Жаркие споры вокруг успеха DeepSeek продолжаются. Подведем некоторые промежуточные итоги

Подробнее о ситуации вокруг модели DeepSeek можно почитать тут; почему нельзя однозначно говорить о проигрыше американского ИИ – тут.

Что имеем?

  • Одна из ее последних моделей DeepSeek обошлась всего в $5,6 млн - это всего 5% от того, что потребовалось на o1 от OpenAI
  • Модель R1, выпущенная на прошлой неделе, была названа «одним из самых удивительных и впечатляющих прорывов
  • Акции Nvidia, Tesla, Google, Amazon и Microsoft рухнули
  • Приложение DeepSeek лидирует во многих странах в магазинах приложений. Количество пользователей увеличилось в разы, только за последние дни его скачало более 2 млн раз.

Вопрос 1. Действительно ли требуются миллиарды долларов, чтобы выиграть гонку ИИ? Сколько стоило обучение модели?

Выяснить, сколько на самом деле стоят модели, немного сложно, потому что DeepSeek не сможет честно сказать о том, какие у него типы и сколько графических процессоров — из-за санкций.

Прикидки говорят о том, используемые методы оптимизации могут дать такой результат и что китайцы говорят правду.

Cообществу открытого исходного кода (по словам руководителя исследований Hugging Face Леандро фон Верры) не потребуется много времени, чтобы узнать это. Команда исследователей начала работать на выходных, чтобы воспроизвести и открыть исходный код рецепта R1, и как только они смогут создать свою собственную версию модели, «мы довольно быстро узнаем, сходятся ли цифры».

Вопрос 2. Как DeepSeek удалось сделать модель так дешево?

Если коротко, то они использовали наработки конкурентов. В частности, модели с открытым исходным кодом.

Вместо того, чтобы начинать с нуля, DeepSeek построила свой ИИ, используя существующие модели с открытым исходным кодом в качестве основы — модель Llama от Meta* и экосистему PyTorch.

По мнению ряда экспертов успех DeepSeek с его новой моделью ИИ подтверждает идею о том, что ИИ модели с открытым исходным кодом становится более конкурентоспособными и, возможно, даже превосходит закрытые, фирменные модели крупных технологических компаний. Так, Я.Лекун (один из самых уважаемых экспертов в мире ИИ) заявил, что DeepSeek «извлек выгоду из открытых исследований и открытого исходного кода».

К слову, OpenAI изначально была основана как компания с открытым исходным кодом для разработки ИИ с миссией создания технологий, приносящих пользу всему человечеству, но затем перешла на закрытый исходный код. т.к. это «более простой способ достичь безопасности [модели]».

Сторонники открытого исходного кода говорят, что он позволяет технологиям развиваться быстро и демократично, поскольку любой может изменять и распространять код. С другой стороны, сторонники моделей с закрытым исходным кодом утверждают, что они более безопасны, поскольку код остается конфиденциальным.

Бывший исследователь OpenAI Майлз Брандейдж рассказал The Verge, что R1 использовал два ключевых трюка оптимизации: более эффективное предварительное обучение и обучение с подкреплением на основе цепочки рассуждений. DeepSeek сделало сам процесс обучения более эффективным, разработав DeepSeekMLA (Multi-Head Latent Attention), что значительно сократило объем памяти, необходимый для запуска ИИ моделей, оптимизировав сжатие хранения и извлечения информации.

Также DeepSeek нашел способы использовать более дешевые графические процессоры для обучения своего ИИ. Эта комбинация позволила модели достичь производительности уровня o1, используя при этом гораздо меньше вычислительной мощности и денег.

Наконец, эксперты полагают, что озвучены не все затраты на разработку модели. А если посчитать всё сразу, то получится, что DeepSeek вложил в обучение модели вполне сравнимо с вложениями в LLama.

NYT считает, что в $6 млн не учтена ни цена видеокарт, ни разработчиков, ни тот факт, что с первого раза получить такую модель невозможно.

Вопрос 3. Является ли R1 копией o1?

DeepSeek v3, а также более ранняя версия DeepSeek v2 — это, по сути, те же модели, что и GPT-4, но с более хитрыми инженерными приемами, позволяющими получить большую отдачу от своих затрат с точки зрения графических процессоров, полагают эксперты.

Тем не менее, без доступа к базам данных обучения трудно определить, насколько это «копия» o1 — использовал ли DeepSeek o1 для обучения R1.

В декабре Альтман написал, что «(относительно) легко скопировать то, что, как вы знаете, работает» и «чрезвычайно сложно сделать что-то новое, рискованное и сложное, когда вы не знаете, сработает ли это».

Таким образом, DeepSeek может не создавать новые передовые модели, а просто копировать существующие модели. Инвестор OpenAI Джошуа Кушнер также считает, что DeepSeek «обучался на ведущих передовых моделях США».

Вопрос 4. Так уж необходимы гигантские средства для успеха?

DeepSeek потрясает весь инвестиционный ландшафт.

ИИ был историей излишеств: центры обработки данных, потребляющие энергию в масштабах небольших стран, миллиардные учебные заезды и история о том, что только технологические гиганты могут играть в эту игру. Для многих кажется, что DeepSeek просто разнес эту идею в пух и прах.

Во-первых, считалось, что независимо от того, кто бы ни оказался лидером в гонке ИИ, нужен гигантский запас чипов Nvidia для запуска моделей. Успех DeepSeek переворачивает инвестиционную теорию, которая привела к заоблачным ценам на акции Nvidia.

Во-вторых, стартапы как OpenAI и Anthropic достигли головокружительных оценок — $157 млрд и $60 млрд соответственно — за счет венчурных вливаний. Успех DeepSeek говорит о том, что простое вливание большого количества денег не так требуется, как думали многие компании и инвесторы.

Вопрос 5. Какой подход к инновациям более эффективен?

Кажется, что США и Китай придерживаются противоположных подходов. В то время как китайский DeepSeek показывает, что можно внедрять инновации посредством оптимизации, несмотря на ограниченные вычислительные возможности, США делают большую ставку на грубую силу — как видно из проекта Stargate стоимостью $500 миллиардов.

Так ли это? О том, повлияли ли санкции на чипы на результат разработки DeepSeek, читайте тут.

* - Деятельность в России признана экстремистской

Пожалуйста, поддержите меня, поставьте лайк!

5
Начать дискуссию