Почему рано хоронить OpenAI и превозносить DeepSeek?

В техно и финансовых кругах развернулась дискуссия (если не сказать паника). Шутка ли, что можно вот так вот создать модель с 20 раз дешевле, да и еще в условиях санкций? Но не все так просто. Расскажу, в чем дело

🔥 Еще больше интересного в моем канале Продуктовые штучки

Подробнее о ситуации вокруг модели DeepSeek можно почитать тут

Есть несколько аргументов против апокалиптических выводов «все пропало». Сразу скажу, что придумала не сама, взяла у крутых специалистов. Леннарт Хейм – профессор, преподаватель курса по управлению ИИ, научный сотрудник института RAND, где руководит вычислительными исследованиями.

Эффективность DeepSeek могла быть достигнута за счет того, что ранее у нее был доступ к значительным вычислительным ресурсам.

Ограничения начались только в октябре 2023 года, когда модель уже была создана, что делает заявления об их неэффективности преждевременными.
Леннарт Хайм и Сихао Хуан. Источник

DeepSeek обучался на чипах Nvidia H800, специально разработанных для обхода первоначальных мер контроля октября 2022 года.

Если для обучения моделей следующего поколения потребуется 100 000 чипов, экспортный контроль существенно повлияет на разработку китайской пограничной модели. Однако даже без такого масштабирования контроль повлияет на экосистему искусственного интеллекта Китая за счет сокращения возможностей. Вычислительный разрыв между США и Китаем, еще больше увеличенный экспортным контролем, остается основным ограничением DeepSeek. Руководство DeepSeek открыто признало 4-кратное отставание в вычислительных возможностях, несмотря на рост эффективности.

Когда реально начались экспортные ограничения. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fblog.heim.xyz%2Fdeepseek-what-the-headlines-miss%2F&postId=1778418" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />

Алгоритмы машинного обучения всегда становились дешевле с течением времени
Леннарт Хайм и Сихао Хуан. Источник

Этот же самый рост эффективности, который позволяет таким мелким игрокам, как DeepSeek, получать доступ к заданной возможности («эффект доступа»), вероятно, также позволит другим, последующим, компаниям создавать более мощные модели («эффект производительности»).

Лаг между "эффектом доступа" и "эффектом производительности". <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fblog.heim.xyz%2Fdeepseek-what-the-headlines-miss%2F&postId=1778418" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />

А это означает, что публичные бенчмарки рисуют несовершенную картину прогресса ИИ. Это делает прямые сравнения на основе публичной информации неполными.

Внимание к DeepSeek отчасти обусловлено их открытым подходом: подробным обменом весами моделей и методами, в отличие от все более закрытой позиции западных компаний.

Однако еще предстоит выяснить, обязательно ли открытость приводит к стратегическому преимуществу.
Леннарт Хайм и Сихао Хуан. Источник

Достижения DeepSeek являются подлинными и значительными. Заявления, отрицающие их прогресс, сработают против тех, кто отрицает.

Кстати, Сэм Альтман признал достижения конкурентов:

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.theverge.com%2F2025%2F1%2F27%2F24353477%2Fopenai-ceo-sam-altman-on-deepseek-r1-an-impressive-model&postId=1778418" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Стоит помнить, что в машинном обучении всегда так: сначала нужно много вычислительных ресурсов, чтобы найти правильный путь, а повторить его затем значительно проще. Дообучение модели в процессе работы модели - всего дешевле, чем первоначальная настройка, и есть способы, как удешевить модель на этом этапе.

Это мы и видим: ChatGPT также подешевел с точки зрения используемых для вычислений мощностей.

#chatgpt #claude #deepseek #openai #anthropic #stargate #o1

Наташа Хазеева

ChatGPT

7 янв

Сэм Альтман: сверхразум — новая цель для OpenAI

Вчера Сэм опубликовал пост, где сообщил, что в OpenAI уже знают, как построить универсальный ИИ (цель, которой говорят все техно гуру и футуристы уже лет десять), и теперь у них новая сверхцель. Что же такое этот сверхразум, если даже универсальный ИИ звучит запредельно?

Почему рано хоронить OpenAI и превозносить DeepSeek?

1. Реальные экспортные ограничения на чипы ИИ начались позже

2. Экспортный контроль работает с задержкой и не успел проявиться

3. Неудивительно, что DeepSeek V3 обучался на меньших вычислительных ресурсах

4. Ведущие американские компании держат лучшие из своих возможностей в тайне

Какой вывод?

Пожалуйста, поддержите меня, поставьте лайк!