Требует меньше мощностей, денег и времени: почему китайская нейросеть DeepSeek заставила Кремниевую долину «встрепенуться»
Мнением поделился вице-президент по продукту и развитию ИИ-подразделения Dropbox Морган Браун.
Его слова приведены от первого лица.
Контекст: обучение передовых ИИ-моделей обходится безумно дорого. Только на вычислительные мощности такие компании, как OpenAI и Anthropic, тратят от $100 млн. Им нужны гигантские дата-центры — с тысячами графических процессоров (GPU) по $40 тысяч каждый. По сути, это всё равно что запускать завод, которому для работы нужна целая электростанция.
Затем появилась китайская DeepSeek и сказала: «Лол, а что если мы уложимся в $5 млн?» И не просто сказала, а сделала. Да так, что во многих задачах её модели превосходят GPT-4 и Claude. ИИ-отрасль встрепенулась.
Как? Они переосмыслили всё с нуля. Традиционный искусственный интеллект — это как записывать каждое число с 32 знаками после запятой. DeepSeek же подумала: «Может, хватит восьми?» Бац — и памяти нужно на 75% меньше.
Другая особенность — архитектура Multi-token Prediction. Рядовой ИИ читает как первоклашка: «Кошка... сидела... на...» А модель DeepSeek сразу читает фразы целиком: вдвое быстрее и с той же точностью в 90% случаев. Это важно, ведь речь идёт об обработке миллиардов слов.
Помимо этого, компания использует «мультиэкспертный подход». Вместо одного универсального ИИ, который пытается знать всё (представьте, что вы и врач, и юрист, и инженер), у DeepSeek есть специализированные сети-«эксперты», которые «включаются» только при необходимости.
Традиционные модели? У них постоянно активны 1,8 трлн параметров. Модели DeepSeek? Параметров 671 млрд, но в моменте активны лишь 37 млрд. Всё равно что содержать большую команду специалистов, но вызывать их на работу под конкретные запросы.
Результаты поражают:
- Затраты на обучение: не $100 млн, а $5 млн.
- Количество нужных GPU: 2000 вместо 100 тысяч.
- Стоимость API: на 95% дешевле.
- Тип нужных GPU: подойдут и игровые — серверное оборудование дата-центров необязательно.
«В чём подвох?» — спросите вы. А я вам отвечу: у решений DeepSeek открытый исходный код. Можете сами проверить её наработки. Все объяснения — в технической документации. Никакой магии — просто искусный инжиниринг.
Почему это важно? Ломается устоявшаяся модель — что «войти в игру может только бигтех». Разработчикам больше не нужны дата-центры за $1 млрд. Хватит несколько хороших GPU.
Для Nvidia это тревожный звонок. Бизнес-модель компании строится на продаже дорогущих процессоров — с расчётом на 90%-ную маржу. Если все внезапно получают возможность работать над моделями с помощью базовых игровых GPU, то... Ну вы поняли.
И знаете, что ещё интересно? Всё это удалось компании менее чем из 200 человек. У Meta* тем временем есть команды, в которых только зарплаты превышают бюджет DeepSeek на обучение. И модели Meta* при этом не так хороши.
Это самый что ни на есть прорыв. Старые игроки оптимизируют процессы, а «дизрапторы» переосмысливают фундаментальный подход. DeepSeek взяла и задалась вопросом: «А можем ли мы сделать то же самое, но смышлёнее, вместо того чтобы вливать всё больше и больше денег в "железо"?»
Преимуществ в итоге уйма:
- Разработка ИИ становится доступнее.
- Конкуренция ощутимо ужесточается.
- «Оборонные рвы» бигтеха всё больше походят на лужи.
- Требования к «железу» существенно смягчаются, а затраты сокращаются.
Безусловно, гиганты рынка вроде OpenAI и Anthropic бездействовать не собираются и наверняка уже внедряют те же инновации. Но «джин эффективности» уже выпущен из бутылки.
Думаю, что этот случай мы запомним как переломный для индустрии момент — как когда появление персональных компьютеров подорвало актуальность мейнфреймов или же облачные технологии перевернули рынки.
- Китайскую компанию DeepSeek основали в 2023 году в Ханчжоу. Она разрабатывает языковые модели с открытым кодом. Первую модель DeepSeek Coder представила в мае того же года, а вторую, DeepSeek-V2, ровно через год.
- В ноябре 2024 года разработчики выпустили превью-версию R1 с возможностью рассуждений, а в январе 2025 года — полную. По словам компании, модель решает задачи по программированию, математике и логике лучше или так же, как аналогичная модель o1 от OpenAI.
- У DeepSeek есть чат-бот и бесплатные приложения для iOS и Android. Бот умеет выходить в интернет и отвечать на русском языке. На момент публикации этой заметки DeepSeek занимает первую строчку в топе бесплатных приложений для iPhone в американском App Store. ChatGPT на втором. TechCrunch, как и Браун, пишет, что китайская компания заставила Кремниевую долину встрепенуться.
*Meta признана в России экстремистской организацией и запрещена.