Почему рано хоронить OpenAI и превозносить DeepSeek?
В техно и финансовых кругах развернулась дискуссия (если не сказать паника). Шутка ли, что можно вот так вот создать модель с 20 раз дешевле, да и еще в условиях санкций? Но не все так просто. Расскажу, в чем дело
🔥 Еще больше интересного в моем канале Продуктовые штучки
Подробнее о ситуации вокруг модели DeepSeek можно почитать тут
Есть несколько аргументов против апокалиптических выводов «все пропало». Сразу скажу, что придумала не сама, взяла у крутых специалистов. Леннарт Хейм – профе��сор, преподаватель курса по управлению ИИ, научный сотрудник института RAND, где руководит вычислительными исследованиями.
1. Реальные экспортные ограничения на чипы ИИ начались позже
Эффективность DeepSeek могла быть достигнута за счет того, что ранее у нее был доступ к значительным вычислительным ресурсам.
Ограничения начались только в октябре 2023 года, когда модель уже была создана, что делает заявления об их неэффективности преждевременными.
DeepSeek обучался на чипах Nvidia H800, специально разработанных для обхода первоначальных мер контроля октября 2022 года.
2. Экспортный контроль работает с задержкой и не успел проявиться
Если для обучения моделей следующего поколения потребуется 100 000 чипов, экспортный контроль существенно повлияет на разработку китайской пограничной модели. Однако даже без такого масштабирования контроль повлияет на экосистему искусственного интеллекта Китая за счет сокращения возможностей. Вычислительный разрыв между США и Китаем, еще больше увеличенный экспортным контролем, остается основным ограничением DeepSeek. Руководство DeepSeek открыто признало 4-кратное отставание в вычислительных возможностях, несмотря на рост эффективности.
3. Неудивительно, что DeepSeek V3 обучался на меньших вычислительных ресурсах
Алгоритмы машинного обучения всегда становились дешевле с течением времени
Этот же самый рост эффективности, который позволяет таким мелким игрокам, как DeepSeek, получать доступ к заданной возможности («эффект доступа»), вероятно, также позволит другим, последующим, компаниям создавать более мощные модели («эффект производительности»).
4. Ведущие американские компании держат лучшие из своих возможностей в тайне
А это означает, что публичные бенчмарки рисуют несовершенную картину прогресса ИИ. Это делает прямые сравнения на основе публичной информации неполными.
Внимание к DeepSeek отчасти обусловлено их открытым подходом: подробным обменом весами моделей и методами, в отличие от все более закрытой позиции западных компаний.
Однако еще предстоит выяснить, обязательно ли открытость приводит к стратегическому преимуществу.
Какой вывод?
Достижения DeepSeek являются подлинными и значительными. Заявления, отрицающие их прогресс, сработают против тех, кто отрицает.
Кстати, Сэм Альтман признал достижения конкурентов:
Стоит помнить, что в машинном обучении всегда так: сначала нужно много вычислительных ресурсов, чтобы найти правильный путь, а повторить его затем значительно проще. Дообучение модели в процессе работы модели - всего дешевле, чем первоначальная настройка, и есть способы, как удешевить модель на этом этапе.
Это мы и видим: ChatGPT также подешевел с точки зрения используемых для вычислений мощностей.