ИИ агент от OpenAI может появиться очень скоро
Расскажу, чего ожидать от этого агента
🔥 Еще больше интересного в моем канале продуктовые штучки
OpenAI, возможно, близки к выпуску инструмента, который сможет взять под контроль ПК и выполнять действия от вашего имени (это суть агентов, подробнее о них — тут).
В медиа наводят шум, но на самом деле, компания анонсировала это недавно сама, когда выпускала функцию напоминания.
Неизбежный выход OpenAI на рынок агентов ИИ происходит на фоне конкурентов, включая вышеупомянутую Anthropic, Google и других, которые пытаются завоевать этот зарождающийся сегмент. Рынок агентов по всем прогнозам будет бурно расти в 2025 году, и мы это уже наблюдаем. По данным аналитической компании Markets and Markets, к 2030 году рынок агентов ИИ может составить $47,1 млрд.
Тибор Блахо, инженер-программист с репутацией слива будущих продуктов ИИ, утверждает, что обнаружил доказательства давно обсуждаемого инструмента Operator от OpenAI (как говорят, он и является «агентской» системой, способной автономно выполнять такие задачи, как написание кода и бронирование путешествий).
Согласно The Information, OpenAI нацеливается на январь в релизе Operator.
Какова производительность ИИ агента?
Нужно понимать, что агенты сегодня довольно примитивны. Но некоторые эксперты выразили обеспокоенность по поводу их безопасности, если технология будет быстро совершенствоваться.
Нужно оговориться, что OpenAI пока не опубликовал данные производительности Operator по сравнению с другими инструментами, и это неофициальные данные.
На OSWorld (бенчмарке, который пытается имитировать реальную компьютерную среду, «OpenAI Computer Use Agent (CUA)» — возможно, модель ИИ, лежащая в основе Operator — набирает 38,1%, опережая ИИ агента Anthropic, но значительно отстает от человеческого результата в 72,4%.
OpenAI CUA превосходит человеческую производительность на WebVoyager, который оценивает способность ИИ перемещаться и взаимодействовать с веб-сайтами. Но эта модель не дотягивает до человеческих результатов на другом веб-бенчмарке, WebArena, согласно просочившимся бенчмаркам.
Operator также (пока) испытывает трудности с задачами, которые легко может выполнить человек, если верить утечке.
В тесте, в котором Operator должен был зарегистрироваться у облачного провайдера и запустить виртуальную машину, Operator справился только в 60% случаев. В тесте на создание биткойн-кошелька Operator справился только в 10% случаев.
Operator хорошо справляется с оценками безопасности, включая тесты, которые пытаются заставить систему выполнять «незаконные действия» и искать «конфиденциальные персональные данные».
Как сообщается , тестирование безопасности является одной из причин длительного цикла разработки Operator.