Для этого готовую модель Qwen они дообучили методом «дистилляции» с помощью Gemini 2.0 Flash Thinking.
Ахах - "готовую модель Qwen они дообучили методом «дистилляции» с помощью Gemini 2.0 Flash Thinking". Они взял готовую технологию, в которую были вложены миллионы, и псевдо создали свою рассуждающую модель. Как будто бы что-то не так)
Лол, так в этом прикол исследования и был. Показать как это получилось у нашумевшеоо DeepSeek.
ㅤ
При этом тут вышло более чем в тысячу раз дешевле чем у китайцев 😂
дипсиик тоже так делали
Подсмотрели модель обучения у Yandex-a