Новая модель от Anthropic будет круче o3-mini от OpenAI

И выйдет она уже на следующей неделе. По крайней мере, так говорится в отчёте от The Information.

Anthropic — это разработчик нейросети Claude 3.5 Sonnet. Пусть эта модель не часто мелькает в новостях (точно не так часто, как это делает DeepSeek или GPT от OpenAI), зато у неё неплохие результаты испытаний на бенчмарках, в том числе по сравнению с GPT-4o.

В последних испытаниях на бенчмарках отставала она только в решении математических задач и в категории общих знаний уровня учащихся вузов. В остальном — логические размышления, общие знания уровня выпускника вуза, программирование, мультилингвальная математика, математика школьного уровня и смешанные вопросы — она превзошла как свои предыдущие версии, так и GPT-4o, Gemini 1.5 Pro и Llama-400b.

В отчёте новинку называют «гибридом», который может переключаться между режимом глубоких логических рассуждений, как у DeepSeek и o3-mini, и быстрыми ответами. И там же говорится, что по некоторым параметрам модель Anthropic превосходит упомянутую выше o3-mini. В частности, у неё лучше получается справляться с программированием, анализом кодинговых баз данных и бенчмарками, связанными с бизнесом.

Из других интересных моментов — в Anthropic создали скользящую шкалу сложности запроса, которая позволяет разработчикам контролировать затраты на генерацию ответа. Это связано с тем, что режим рассуждений требует больше вычислительных мощностей на решение задачи. Со шкалой нейросеть предположительно сможет решать, когда запросу требуются рассуждения, а когда можно обойтись более «дешёвым» быстрым режимом.

Собственно, ничего удивительного, что следующей выпущенной нейросетью станет модель от Anthropic. После релиза DeepSeek, который запустил масштабную нейрогонку, «высказались» почти все, начиная от Alibaba и заканчивая Google, причём каждая из них постаралась отстроиться от конкурентов. У Gemini 2.0 Flash от Google конкурентным преимуществом стал, например, больший объём памяти — миллион токенов, которые нейросеть использует, чтобы «запоминать» информацию. Будет интересно посмотреть, какую фичу реализует в своём продукте Anthropic.