Claude 3.5 НАУЧИЛСЯ УПРАВЛЯТЬ КОМПЬЮТЕРОМ! 🔥 Революция в автоматизации от Anthropic | Обзор
Компания Anthropic объявила о значительном обновлении модели Claude 3.5 Sonnet и выпуске новой версии Claude 3.5 Haiku. Ключевое нововведение — возможность использовать компьютер подобно человеку: управлять курсором, нажимать кнопки и вводить текст. Рассказываем о главных улучшениях и новых возможностях.
***
На связи Роман Шарафутдинов. Я маркетолог, продюсер, специалист по нейросетям, спикер. Занимаюсь стратегическим маркетингом, продюсированием, помогаю экспертам, блогерам, предпринимателям и фрилансерам внедрять нейросети в свою работу, экономить время/деньги и зарабатывать больше за счет внедрения ИИ.
Подписывайтесь на мой Телеграм-канал. Здесь еще больше полезностей из мира нейросетей и маркетинга.
***
Компания Anthropic анонсировала сразу несколько важных обновлений своей флагманской линейки языковых моделей Claude:
Улучшенный Claude 3.5 Sonnet
Обновленная версия Claude 3.5 Sonnet демонстрирует значительные улучшения по всем направлениям, особенно в области программирования, где модель уже была лидером рынка:
- Производительность в SWE-bench Verified выросла с 33.4% до 49.0%, что превосходит все публично доступные модели, включая OpenAI o1-preview
- Улучшены показатели в TAU-bench: с 62.6% до 69.2% в розничном домене и с 36.0% до 46.0% в более сложном авиационном домене
- Цена и скорость работы остались на прежнем уровне
Первые отзывы клиентов подтверждают существенный прогресс:
- GitLab отмечает улучшение рассуждений на 10% в задачах DevSecOps без увеличения задержек
- Cognition сообщает о значительных улучшениях в кодировании, планировании и решении проблем
- The Browser Company подтверждает, что новая версия превосходит все ранее тестируемые модели
Новая модель Claude 3.5 Haiku
Claude 3.5 Haiku — новое поколение самой быстрой модели компании:
- При той же стоимости и скорости, что и Claude 3 Haiku, демонстрирует улучшения по всем параметрам
- Превосходит Claude 3 Opus (самую большую модель предыдущего поколения) по многим показателям
- Достигает 40.6% в SWE-bench Verified, опережая многие современные модели
- Оптимальна для пользовательских продуктов, специализированных подзадач и генерации персонализированного опыта
Революционная функция: управление компьютером
Главное нововведение — возможность использовать компьютер как человек. Claude теперь может:
- Воспринимать и взаимодействовать с компьютерными интерфейсами
- Выполнять сложные последовательности действий
- Использовать стандартное программное обеспечение
В тесте OSWorld Claude 3.5 Sonnet показал результат 14.9% в категории screenshot-only, что значительно превышает показатель ближайшего конкурента (7.8%). При увеличении количества шагов для выполнения задачи результат достигает 22.0%.
Доступность и внедрение
- Обновленный Claude 3.5 Sonnet уже доступен всем пользователям
- Функция управления компьютером доступна в бета-версии через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI
- Claude 3.5 Haiku будет выпущен позднее в этом месяце
Безопасность и ответственное развитие
Anthropic уделяет особое внимание безопасности новых функций:
- Разработаны новые классификаторы для идентификации использования компьютера и потенциальных угроз
- Проведено совместное тестирование с US AI Safety Institute и UK Safety Institute
- Модель соответствует стандарту ASL-2 согласно политике ответственного масштабирования компании
Перспективы развития
Anthropic подчеркивает, что возможность управления компьютером находится на ранней стадии развития и имеет определенные ограничения. Компания рекомендует начинать с низкорисковых задач и активно собирает обратную связь от разработчиков для улучшения функционала.
Материал подготовлен на основе официального анонса Anthropic.
Подписывайтесь на мой Телеграм-канал. Здесь еще больше полезностей из мира нейросетей и маркетинга.