Исследователи из Стэнфорда и Вашингтонского университета рассказали, что смогли создать «рассуждающую» ИИ-модель меньше чем за $50

Для этого готовую модель Qwen они дообучили методом «дистилляции» с помощью Gemini 2.0 Flash Thinking.

Процесс создания модели s1 исследователи описали в научной статье, на которую обратил внимание TechCrunch. Исходный код опубликован на GitHub.
По словам учёных, эффективность s1 в тестах по математике и программированию сопоставима с моделями от OpenAI и DeepSeek.
За основу s1 взяли бесплатную модель китайской Qwen (принадлежит Alibaba). Её дообучили с помощью «рассуждающей» модели Gemini 2.0 Flash Thinking от Google, используя метод «дистилляции» — это процесс переноса знаний из большой модели в маленькую.
Исследователи создали набор из 1000 «тщательно сформулированных» вопросов и ответов Gemini на них. Для обучения потребовалось 16 видеокарт Nvidia H100, аренда которых в облаке стоила около $50. Процесс занял примерно 30 минут.
В январе 2025 года группа исследователей одной из лабораторий Калифорнийского университета в Беркли выпустила «рассуждающую» модель Sky-T1-32B-Preview. По их словам, обучение обошлось в $450.
Как отмечает TehcCrunch, ещё недавно цена обучения модели с такой же производительностью могла достигать миллионов долларов. При этом крупнейшие разработчики ИИ, включая OpenAI, Google и Microsoft, планируют инвестировать сотни миллиардов долларов в инфраструктуру, часть которых пойдёт на обучение моделей ИИ следующего поколения.

В январе 2025 года китайская DeepSeek представила модель R1, которая продемонстрировала результаты, сопоставимые с o1 от OpenAI, при гораздо меньших затратах на разработку. Она возглавила чарты магазинов приложений и спровоцировала распродажу акций техкомпаний по всему миру.
В частности, участники рынка обеспокоены тем, что более эффективный подход DeepSeek к обучению и запуску моделей «подрывает основную бизнес-модель»: сейчас ИИ-разработчики зависят от дорогих чипов и огромных вычислительных мощностей.

Полина Лааксо

28 янв

Мнение: рыночная паника из-за DeepSeek «раздута» — спрос на чипы не упадёт, а вырастет

Акции Nvidia, которая контролирует около 80% рынка чипов для ИИ, начинают отыгрывать просадку на 17%.

Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2FKarl_Was_Right%2Fstatus%2F1883921847047401941%2Fphoto%2F2&postId=1776630" rel="nofollow noreferrer noopener" target="_blank">Х</a>

#новости