Google выпустила превью-версию гибридной «рассуждающей» модели Gemini 2.5 Flash — она в несколько раз дешевле Claude Sonnet 3.7 и Grok 3 Beta

  • Gemini 2.5 Flash — первая полностью гибридная «рассуждающая» модель Google. Разработчики могут отключить «рассуждения» и настроить «бюджет» на них, установив лимит на токены, которые модель сможет потратить. Максимум — 24 576 токенов.
  • Чем шире лимит, тем лучше будет ответ, если запрос сложный и требует длинной цепочки «мыслей». Например, для вопроса, как сказать «спасибо» на испанском, рассуждения не нужны, а для решения задач пригодятся. Но Gemini 2.5 Flash обучили в том числе самостоятельно определять по промпту, сколько нужно «размышлять» над заданием.
  • 1 млн «входных» токенов обойдётся в $0,15. 1 млн «выходных» — $0,60 без «рассуждений» и $3,50 c ними. Для сравнения: Claude Sonnet 3.7 и Grok 3 Beta требуют по $3 и $15 соответственно; OpenAI o4-mini — $1,1 и $4,4; DeepSeek R1 — $0,55 и $2,19. При этом в ряде отраслевых тестов модель от Google показала себя лучше первых трёх «конкурентов».
Соотношение цены и «качества ответов». Вертикаль — результативность. Горизонталь — стоимость токенов в долларах
Соотношение цены и «качества ответов». Вертикаль — результативность. Горизонталь — стоимость токенов в долларах
Бенчмарки по разным «рассуждающим» моделям. Результаты Gemini 2.5 Flash подсвечены
Бенчмарки по разным «рассуждающим» моделям. Результаты Gemini 2.5 Flash подсвечены
11
25 комментариев