Новый Claude 3.5 Sonnet — одна из лучших моделей, которыми я когда-либо пользовался

Anthropic прислушались к отзывам о старом 3.5 Sonnet и работали над улучшением новой модели несколькими способами. Вот некоторые из моих любимых улучшений:

Tau bench — это агентский бенчмарк, который оценивает способность модели взаимодействовать с моделируемыми пользователями и API в сценариях обслуживания клиентов. Новая версия 3.5 Sonnet — это SOTA.

Лично я заметил, что модель застревает в циклах реже, чем раньше.

Новый Sonnet 3.5 действительно хорош в кодировании. Он достиг 49% на SWE-Bench Verified с доступом всего к двум инструментам и без сложных скаффолдингов.

Мы начинаем видеть отблеск будущего, в котором каждый инженер становится менеджером десятков Клодов, которые пишут для него код.

Что касается зрительного восприятия, то новый 3.5 Sonnet очень хорош.

Это позволило внедрить новые возможности, такие как использование компьютера (Клод управляет компьютером, заходит на сайте, выполняет задания), а также помогло в решении таких задач, как оптическое распознавание текста.

Вы, возможно, заметили, что в старой версии 3.5 Sonnet очень много извинялся практически за все, поэтому Anthropic работает над сокращением ненужных извинений и делает модель более прямолинейной.

Это лишь некоторые из изменений и улучшений. Попробуйте новую модель сами бесплатно, и дайте мне знать, что вы думаете!

Новый Claude 3.5 Sonnet — одна из лучших моделей, которыми я когда-либо пользовался

Самокоррекция и рассуждение

Код

Это почти на 16% больше, чем у старого 3,5 Sonnet.

Зрение

Извинения