Anthropic прислушались к отзывам о старом 3.5 Sonnet и работали над улучшением новой модели несколькими способами. Вот некоторые из моих любимых улучшений:Самокоррекция и рассуждениеTau bench — это агентский бенчмарк, который оценивает способность модели взаимодействовать с моделируемыми пользователями и API в сценариях обслуживания клиентов. Новая версия 3.5 Sonnet — это SOTA.Лично я заметил, что модель застревает в циклах реже, чем раньше.КодНовый Sonnet 3.5 действительно хорош в кодировании. Он достиг 49% на SWE-Bench Verified с доступом всего к двум инструментам и без сложных скаффолдингов.Это почти на 16% больше, чем у старого 3,5 Sonnet.Мы начинаем видеть отблеск будущего, в котором каждый инженер становится менеджером десятков Клодов, которые пишут для него код.ЗрениеЧто касается зрительного восприятия, то новый 3.5 Sonnet очень хорош.Это позволило внедрить новые возможности, такие как использование компьютера (Клод управляет компьютером, заходит на сайте, выполняет задания), а также помогло в решении таких задач, как оптическое распознавание текста. ИзвиненияВы, возможно, заметили, что в старой версии 3.5 Sonnet очень много извинялся практически за все, поэтому Anthropic работает над сокращением ненужных извинений и делает модель более прямолинейной.Это лишь некоторые из изменений и улучшений. Попробуйте новую модель сами бесплатно, и дайте мне знать, что вы думаете!