Для этого готовую модель Qwen они дообучили методом «дистилляции» с помощью Gemini 2.0 Flash Thinking.Процесс создания модели s1 исследователи описали в научной статье, на которую обратил внимание TechCrunch. Исходный код опубликован на GitHub.По словам учёных, эффективность s1 в тестах по математике и программированию сопоставима с моделями от OpenAI и DeepSeek.За основу s1 взяли бесплатную модель китайской Qwen (принадлежит Alibaba). Её дообучили с помощью «рассуждающей» модели Gemini 2.0 Flash Thinking от Google, используя метод «дистилляции» — это процесс переноса знаний из большой модели в маленькую.Исследователи создали набор из 1000 «тщательно сформулированных» вопросов и ответов Gemini на них. Для обучения потребовалось 16 видеокарт Nvidia H100, аренда которых в облаке стоила около $50. Процесс занял примерно 30 минут.В январе 2025 года группа исследователей одной из лабораторий Калифорнийского университета в Беркли выпустила «рассуждающую» модель Sky-T1-32B-Preview. По их словам, обучение обошлось в $450.Как отмечает TehcCrunch, ещё недавно цена обучения модели с такой же производительностью могла достигать миллионов долларов. При этом крупнейшие разработчики ИИ, включая OpenAI, Google и Microsoft, планируют инвестировать сотни миллиардов долларов в инфраструктуру, часть которых пойдёт на обучение моделей ИИ следующего поколения.В январе 2025 года китайская DeepSeek представила модель R1, которая продемонстрировала результаты, сопоставимые с o1 от OpenAI, при гораздо меньших затратах на разработку. Она возглавила чарты магазинов приложений и спровоцировала распродажу акций техкомпаний по всему миру.В частности, участники рынка обеспокоены тем, что более эффективный подход DeepSeek к обучению и запуску моделей «подрывает основную бизнес-модель»: сейчас ИИ-разработчики зависят от дорогих чипов и огромных вычислительных мощностей.#новости
Ахах - "готовую модель Qwen они дообучили методом «дистилляции» с помощью Gemini 2.0 Flash Thinking". Они взял готовую технологию, в которую были вложены миллионы, и псевдо создали свою рассуждающую модель. Как будто бы что-то не так)
Лол, так в этом прикол исследования и был. Показать как это получилось у нашумевшеоо DeepSeek.
ㅤ
При этом тут вышло более чем в тысячу раз дешевле чем у китайцев 😂
дипсиик тоже так делали
Подсмотрели модель обучения у Yandex-a
Я так понимаю пошли уже глобальные рофлы над дипсиком
Первый мем 2025 года)
Так получается не создали, а просто чужую доделали, умники))