Claude 3.5 НАУЧИЛСЯ УПРАВЛЯТЬ КОМПЬЮТЕРОМ! 🔥 Революция в автоматизации от Anthropic

Компания Anthropic объявила о значительном обновлении модели Claude 3.5 Sonnet и выпуске новой версии Claude 3.5 Haiku. Ключевое нововведение — возможность использовать компьютер подобно человеку: управлять курсором, нажимать кнопки и вводить текст. Рассказываем о главных улучшениях и новых возможностях.

***

На связи Роман Шарафутдинов. Я маркетолог, продюсер, специалист по нейросетям, спикер. Занимаюсь стратегическим маркетингом, продюсированием, помогаю экспертам, блогерам, предпринимателям и фрилансерам внедрять нейросети в свою работу, экономить время/деньги и зарабатывать больше за счет внедрения ИИ.

Подписывайтесь на мой Телеграм-канал. Здесь еще больше полезностей из мира нейросетей и маркетинга.

t.me

Роман про Маркетинг 🧠 GPT. Нейросети

***

Компания Anthropic анонсировала сразу несколько важных обновлений своей флагманской линейки языковых моделей Claude:

Обновленная версия Claude 3.5 Sonnet демонстрирует значительные улучшения по всем направлениям, особенно в области программирования, где модель уже была лидером рынка:

Claude 3.5 НАУЧИЛСЯ УПРАВЛЯТЬ КОМПЬЮТЕРОМ! 🔥 Революция в автоматизации от Anthropic | Обзор

Производительность в SWE-bench Verified выросла с 33.4% до 49.0%, что превосходит все публично доступные модели, включая OpenAI o1-preview
Улучшены показатели в TAU-bench: с 62.6% до 69.2% в розничном домене и с 36.0% до 46.0% в более сложном авиационном домене
Цена и скорость работы остались на прежнем уровне

Первые отзывы клиентов подтверждают существенный прогресс:

GitLab отмечает улучшение рассуждений на 10% в задачах DevSecOps без увеличения задержек
Cognition сообщает о значительных улучшениях в кодировании, планировании и решении проблем
The Browser Company подтверждает, что новая версия превосходит все ранее тестируемые модели

Claude 3.5 Haiku — новое поколение самой быстрой модели компании:

При той же стоимости и скорости, что и Claude 3 Haiku, демонстрирует улучшения по всем параметрам
Превосходит Claude 3 Opus (самую большую модель предыдущего поколения) по многим показателям
Достигает 40.6% в SWE-bench Verified, опережая многие современные модели
Оптимальна для пользовательских продуктов, специализированных подзадач и генерации персонализированного опыта

Главное нововведение — возможность использовать компьютер как человек. Claude теперь может:

Воспринимать и взаимодействовать с компьютерными интерфейсами
Выполнять сложные последовательности действий
Использовать стандартное программное обеспечение

В тесте OSWorld Claude 3.5 Sonnet показал результат 14.9% в категории screenshot-only, что значительно превышает показатель ближайшего конкурента (7.8%). При увеличении количества шагов для выполнения задачи результат достигает 22.0%.

Обновленный Claude 3.5 Sonnet уже доступен всем пользователям
Функция управления компьютером доступна в бета-версии через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI
Claude 3.5 Haiku будет выпущен позднее в этом месяце

Anthropic уделяет особое внимание безопасности новых функций:

Разработаны новые классификаторы для идентификации использования компьютера и потенциальных угроз
Проведено совместное тестирование с US AI Safety Institute и UK Safety Institute
Модель соответствует стандарту ASL-2 согласно политике ответственного масштабирования компании

Anthropic подчеркивает, что возможность управления компьютером находится на ранней стадии развития и имеет определенные ограничения. Компания рекомендует начинать с низкорисковых задач и активно собирает обратную связь от разработчиков для улучшения функционала.

Материал подготовлен на основе официального анонса Anthropic.

#ИИ #Нейросети #Claude #Anthropic #AINews

Подписывайтесь на мой Телеграм-канал. Здесь еще больше полезностей из мира нейросетей и маркетинга.

t.me

Роман про Маркетинг 🧠 GPT. Нейросети

Claude 3.5 НАУЧИЛСЯ УПРАВЛЯТЬ КОМПЬЮТЕРОМ! 🔥 Революция в автоматизации от Anthropic | Обзор

Улучшенный Claude 3.5 Sonnet

Новая модель Claude 3.5 Haiku

Революционная функция: управление компьютером

Доступность и внедрение

Безопасность и ответственное развитие

Перспективы развития