Новый Claude 3.5 Sonnet — одна из лучших моделей, которыми я когда-либо пользовался

Anthropic прислушались к отзывам о старом 3.5 Sonnet и работали над улучшением новой модели несколькими способами. Вот некоторые из моих любимых улучшений:

Самокоррекция и рассуждение

Tau bench — это агентский бенчмарк, который оценивает способность модели взаимодействовать с моделируемыми пользователями и API в сценариях обслуживания клиентов. Новая версия 3.5 Sonnet — это SOTA.

Лично я заметил, что модель застревает в циклах реже, чем раньше.

Код

Новый Sonnet 3.5 действительно хорош в кодировании. Он достиг 49% на SWE-Bench Verified с доступом всего к двум инструментам и без сложных скаффолдингов.

Это почти на 16% больше, чем у старого 3,5 Sonnet.

Мы начинаем видеть отблеск будущего, в котором каждый инженер становится менеджером десятков Клодов, которые пишут для него код.

Зрение

Что касается зрительного восприятия, то новый 3.5 Sonnet очень хорош.

Это позволило внедрить новые возможности, такие как использование компьютера (Клод управляет компьютером, заходит на сайте, выполняет задания), а также помогло в решении таких задач, как оптическое распознавание текста.

Извинения

Вы, возможно, заметили, что в старой версии 3.5 Sonnet очень много извинялся практически за все, поэтому Anthropic работает над сокращением ненужных извинений и делает модель более прямолинейной.

Это лишь некоторые из изменений и улучшений. Попробуйте новую модель сами бесплатно, и дайте мне знать, что вы думаете!

11
Начать дискуссию