Почему рано хоронить OpenAI и превозносить DeepSeek?

В техно и финансовых кругах развернулась дискуссия (если не сказать паника). Шутка ли, что можно вот так вот создать модель с 20 раз дешевле, да и еще в условиях санкций? Но не все так просто. Расскажу, в чем дело

🔥 Еще больше интересного в моем канале Продуктовые штучки

Подробнее о ситуации вокруг модели DeepSeek можно почитать тут

Есть несколько аргументов против апокалиптических выводов «все пропало». Сразу скажу, что придумала не сама, взяла у крутых специалистов. Леннарт Хейм – профе��сор, преподаватель курса по управлению ИИ, научный сотрудник института RAND, где руководит вычислительными исследованиями.

1. Реальные экспортные ограничения на чипы ИИ начались позже

Эффективность DeepSeek могла быть достигнута за счет того, что ранее у нее был доступ к значительным вычислительным ресурсам.

Ограничения начались только в октябре 2023 года, когда модель уже была создана, что делает заявления об их неэффективности преждевременными.

Леннарт Хайм и Сихао Хуан. Источник

DeepSeek обучался на чипах Nvidia H800, специально разработанных для обхода первоначальных мер контроля октября 2022 года.

2. Экспортный контроль работает с задержкой и не успел проявиться

Если для обучения моделей следующего поколения потребуется 100 000 чипов, экспортный контроль существенно повлияет на разработку китайской пограничной модели. Однако даже без такого масштабирования контроль повлияет на экосистему искусственного интеллекта Китая за счет сокращения возможностей. Вычислительный разрыв между США и Китаем, еще больше увеличенный экспортным контролем, остается основным ограничением DeepSeek. Руководство DeepSeek открыто признало 4-кратное отставание в вычислительных возможностях, несмотря на рост эффективности.

Когда реально начались экспортные ограничения. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fblog.heim.xyz%2Fdeepseek-what-the-headlines-miss%2F&postId=1778418" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
Когда реально начались экспортные ограничения. Источник

3. Неудивительно, что DeepSeek V3 обучался на меньших вычислительных ресурсах

Алгоритмы машинного обучения всегда становились дешевле с течением времени

Леннарт Хайм и Сихао Хуан. Источник

Этот же самый рост эффективности, который позволяет таким мелким игрокам, как DeepSeek, получать доступ к заданной возможности («эффект доступа»), вероятно, также позволит другим, последующим, компаниям создавать более мощные модели («эффект производительности»).

Лаг между "эффектом доступа" и "эффектом производительности". <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fblog.heim.xyz%2Fdeepseek-what-the-headlines-miss%2F&postId=1778418" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
Лаг между "эффектом доступа" и "эффектом производительности". Источник

4. Ведущие американские компании держат лучшие из своих возможностей в тайне

А это означает, что публичные бенчмарки рисуют несовершенную картину прогресса ИИ. Это делает прямые сравнения на основе публичной информации неполными.

Внимание к DeepSeek отчасти обусловлено их открытым подходом: подробным обменом весами моделей и методами, в отличие от все более закрытой позиции западных компаний.

Однако еще предстоит выяснить, обязательно ли открытость приводит к стратегическому преимуществу.

Леннарт Хайм и Сихао Хуан. Источник

Какой вывод?

Достижения DeepSeek являются подлинными и значительными. Заявления, отрицающие их прогресс, сработают против тех, кто отрицает.

Кстати, Сэм Альтман признал достижения конкурентов:

Стоит помнить, что в машинном обучении всегда так: сначала нужно много вычислительных ресурсов, чтобы найти правильный путь, а повторить его затем значительно проще. Дообучение модели в процессе работы модели - всего дешевле, чем первоначальная настройка, и есть способы, как удешевить модель на этом этапе.

Это мы и видим: ChatGPT также подешевел с точки зрения используемых для вычислений мощностей.

Пожалуйста, поддержите меня, поставьте лайк!

11
14 комментариев