Исследователи из Стэнфорда и Вашингтонского университета рассказали, что смогли создать «рассуждающую» ИИ-модель меньше чем за $50

Для этого готовую модель Qwen они дообучили методом «дистилляции» с помощью Gemini 2.0 Flash Thinking.

  • Процесс создания модели s1 исследователи описали в научной статье, на которую обратил внимание TechCrunch. Исходный код опубликован на GitHub.
  • По словам учёных, эффективность s1 в тестах по математике и программированию сопоставима с моделями от OpenAI и DeepSeek.
  • За основу s1 взяли бесплатную модель китайской Qwen (принадлежит Alibaba). Её дообучили с помощью «рассуждающей» модели Gemini 2.0 Flash Thinking от Google, используя метод «дистилляции» — это процесс переноса знаний из большой модели в маленькую.
  • Исследователи создали набор из 1000 «тщательно сформулированных» вопросов и ответов Gemini на них. Для обучения потребовалось 16 видеокарт Nvidia H100, аренда которых в облаке стоила около $50. Процесс занял примерно 30 минут.
  • В январе 2025 года группа исследователей одной из лабораторий Калифорнийского университета в Беркли выпустила «рассуждающую» модель Sky-T1-32B-Preview. По их словам, обучение обошлось в $450.
  • Как отмечает TehcCrunch, ещё недавно цена обучения модели с такой же производительностью могла достигать миллионов долларов. При этом крупнейшие разработчики ИИ, включая OpenAI, Google и Microsoft, планируют инвестировать сотни миллиардов долларов в инфраструктуру, часть которых пойдёт на обучение моделей ИИ следующего поколения.
  • В январе 2025 года китайская DeepSeek представила модель R1, которая продемонстрировала результаты, сопоставимые с o1 от OpenAI, при гораздо меньших затратах на разработку. Она возглавила чарты магазинов приложений и спровоцировала распродажу акций техкомпаний по всему миру.
  • В частности, участники рынка обеспокоены тем, что более эффективный подход DeepSeek к обучению и запуску моделей «подрывает основную бизнес-модель»: сейчас ИИ-разработчики зависят от дорогих чипов и огромных вычислительных мощностей.
10
4
42 комментария

Ахах - "готовую модель Qwen они дообучили методом «дистилляции» с помощью Gemini 2.0 Flash Thinking". Они взял готовую технологию, в которую были вложены миллионы, и псевдо создали свою рассуждающую модель. Как будто бы что-то не так)

10

Лол, так в этом прикол исследования и был. Показать как это получилось у нашумевшеоо DeepSeek.


При этом тут вышло более чем в тысячу раз дешевле чем у китайцев 😂

10

дипсиик тоже так делали

2

Подсмотрели модель обучения у Yandex-a

1

Я так понимаю пошли уже глобальные рофлы над дипсиком

6

Первый мем 2025 года)

Так получается не создали, а просто чужую доделали, умники))

1