Claude 3.5 НАУЧИЛСЯ УПРАВЛЯТЬ КОМПЬЮТЕРОМ! 🔥 Революция в автоматизации от Anthropic | Обзор

Компания Anthropic объявила о значительном обновлении модели Claude 3.5 Sonnet и выпуске новой версии Claude 3.5 Haiku. Ключевое нововведение — возможность использовать компьютер подобно человеку: управлять курсором, нажимать кнопки и вводить текст. Рассказываем о главных улучшениях и новых возможностях.

***

На связи Роман Шарафутдинов. Я маркетолог, продюсер, специалист по нейросетям, спикер. Занимаюсь стратегическим маркетингом, продюсированием, помогаю экспертам, блогерам, предпринимателям и фрилансерам внедрять нейросети в свою работу, экономить время/деньги и зарабатывать больше за счет внедрения ИИ.

Подписывайтесь на мой Телеграм-канал. Здесь еще больше полезностей из мира нейросетей и маркетинга.

***

Компания Anthropic анонсировала сразу несколько важных обновлений своей флагманской линейки языковых моделей Claude:

Улучшенный Claude 3.5 Sonnet

Обновленная версия Claude 3.5 Sonnet демонстрирует значительные улучшения по всем направлениям, особенно в области программирования, где модель уже была лидером рынка:

Claude 3.5 НАУЧИЛСЯ УПРАВЛЯТЬ КОМПЬЮТЕРОМ! 🔥 Революция в автоматизации от Anthropic | Обзор
  • Производительность в SWE-bench Verified выросла с 33.4% до 49.0%, что превосходит все публично доступные модели, включая OpenAI o1-preview
  • Улучшены показатели в TAU-bench: с 62.6% до 69.2% в розничном домене и с 36.0% до 46.0% в более сложном авиационном домене
  • Цена и скорость работы остались на прежнем уровне

Первые отзывы клиентов подтверждают существенный прогресс:

  • GitLab отмечает улучшение рассуждений на 10% в задачах DevSecOps без увеличения задержек
  • Cognition сообщает о значительных улучшениях в кодировании, планировании и решении проблем
  • The Browser Company подтверждает, что новая версия превосходит все ранее тестируемые модели

Новая модель Claude 3.5 Haiku

Claude 3.5 Haiku — новое поколение самой быстрой модели компании:

  • При той же стоимости и скорости, что и Claude 3 Haiku, демонстрирует улучшения по всем параметрам
  • Превосходит Claude 3 Opus (самую большую модель предыдущего поколения) по многим показателям
  • Достигает 40.6% в SWE-bench Verified, опережая многие современные модели
  • Оптимальна для пользовательских продуктов, специализированных подзадач и генерации персонализированного опыта

Революционная функция: управление компьютером

Главное нововведение — возможность использовать компьютер как человек. Claude теперь может:

  • Воспринимать и взаимодействовать с компьютерными интерфейсами
  • Выполнять сложные последовательности действий
  • Использовать стандартное программное обеспечение

В тесте OSWorld Claude 3.5 Sonnet показал результат 14.9% в категории screenshot-only, что значительно превышает показатель ближайшего конкурента (7.8%). При увеличении количества шагов для выполнения задачи результат достигает 22.0%.

Доступность и внедрение

  • Обновленный Claude 3.5 Sonnet уже доступен всем пользователям
  • Функция управления компьютером доступна в бета-версии через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI
  • Claude 3.5 Haiku будет выпущен позднее в этом месяце

Безопасность и ответственное развитие

Anthropic уделяет особое внимание безопасности новых функций:

  • Разработаны новые классификаторы для идентификации использования компьютера и потенциальных угроз
  • Проведено совместное тестирование с US AI Safety Institute и UK Safety Institute
  • Модель соответствует стандарту ASL-2 согласно политике ответственного масштабирования компании

Перспективы развития

Anthropic подчеркивает, что возможность управления компьютером находится на ранней стадии развития и имеет определенные ограничения. Компания рекомендует начинать с низкорисковых задач и активно собирает обратную связь от разработчиков для улучшения функционала.

Материал подготовлен на основе официального анонса Anthropic.

Подписывайтесь на мой Телеграм-канал. Здесь еще больше полезностей из мира нейросетей и маркетинга.

66
Начать дискуссию