Исследователи обучили конкурента OpenAI за полчаса и менее чем за $50
На прошлой неделе DeepSeek поверг в шок технологический и финансовый рынок США, заявив, что смог создать свою модель в 20 раз дешевле, чем у OpenAI. А тут – даже не за $6 000, а $50! И не китайцы (голь на выдумку хитра), а американцы! О чем речь и почему это так важно?
🔥 Еще больше интересного в моем канале Продуктовые штучки
Согласно исследовательской статье, опубликованной в прошлую пятницу, ИИ исследователи из Стэнфорда и Вашингтонского университета смогли обучить ИИ модель «рассуждений» менее чем за $50 в виде облачных вычислений. По словам исследователей обучение s1 заняло менее 30 минут с использованием 16 графических процессоров Nvidia H100. Работавший над проектом исследователь из Стэнфорда рассказал TechCrunch, что можно арендовать необходимые вычисления примерно за $20.
Каково качество?
Модель s1 работает аналогично передовым моделям рассуждений, таким как o1 от OpenAI и R1 от DeepSeek, в тестах, измеряющих математические и кодирующие способности.
Модель s1 доступна на GitHub вместе с данными и кодом, используемыми для ее обучения.
Как это получилось?
S1 основан на небольшой готовой ИИ модели от китайской ИИ лаборатории Qwen, принадлежащей Alibaba, которая доступна для бесплатной загрузки. Для обучения s1 исследователи создали набор данных всего из 1000 тщательно отобранных вопросов, снаряженных с ответами на эти вопросы, а также процесс «мышления», стоящий за каждым ответом, из Gemini 2.0 Flash Thinking Experimental от Google.
В статье про s1 предполагается, что модели рассуждений можно выделить из относительно небольшого набора данных с помощью процесса, называемого контролируемой тонкой настройкой (SFT), в котором модели ИИ явно предписывается имитировать определенное поведение в наборе данных. SFT, как правило, дешевле, чем метод обучения с подкреплением, который DeepSeek использовал для обучения своей модели R1.
Команда s1 начала с готовой базовой модели, а затем доработали ее с помощью дистилляции — процесса извлечения «логических» возможностей из другой модели ИИ путем обучения на ее ответах.
s1 является дистилляцией одной из моделей рассуждений Google, Gemini 2.0 Flash Thinking Experimental.
Исследователи применили изящный трюк, чтобы заставить s1 перепроверить свою работу и продлить время «размышлений»: они сказали ему подождать.
Добавление слова «подождать» во время рассуждений s1 помогло модели прийти к немного более точным ответам, согласно статье.
Разработчики s1 пытались найти самый простой подход для достижения высокой производительности рассуждений и «масштабирования времени тестирования», или позволить ИИ модели ИИ думать больше, прежде чем она ответит на вопрос. Это некоторые из прорывов в o1 от OpenAI, которые DeepSeek и другие лаборатории ИИ пытались воспроизвести с помощью различных методов.
Все ли законно?
Google предлагает бесплатный доступ к Gemini 2.0 Flash Thinking Experimental, хотя и с дневным лимитом. Однако условия Google запрещают обратную разработку своих моделей для разработки сервисов, которые конкурируют с собственными предложениями компании в области ИИ. TechСrunch обратилcя в Google за комментариями.
Почему это важно?
Это важно для развития ИИ, и может стать переломным моментом развития, резко снизив порог входа и показав дорогу действительно к массовому развитию ИИ. Кроме того, для некоторых идея, что несколько исследователей без миллионов долларов за спиной все еще могут вносить инновации в пространство ИИ, непостижима.