ИИ агент от OpenAI может появиться очень скоро

Расскажу, чего ожидать от этого агента

🔥 Еще больше интересного в моем канале продуктовые штучки

OpenAI, возможно, близки к выпуску инструмента, который сможет взять под контроль ПК и выполнять действия от вашего имени (это суть агентов, подробнее о них — тут).

В медиа наводят шум, но на самом деле, компания анонсировала это недавно сама, когда выпускала функцию напоминания.

Неизбежный выход OpenAI на рынок агентов ИИ происходит на фоне конкурентов, включая вышеупомянутую Anthropic, Google и других, которые пытаются завоевать этот зарождающийся сегмент. Рынок агентов по всем прогнозам будет бурно расти в 2025 году, и мы это уже наблюдаем. По данным аналитической компании Markets and Markets, к 2030 году рынок агентов ИИ может составить $47,1 млрд.

Тибор Блахо, инженер-программист с репутацией слива будущих продуктов ИИ, утверждает, что обнаружил доказательства давно обсуждаемого инструмента Operator от OpenAI (как говорят, он и является «агентской» системой, способной автономно выполнять такие задачи, как написание кода и бронирование путешествий).

Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fbtibor91%2Fstatus%2F1881110210867290191&postId=1765868" rel="nofollow noreferrer noopener" target="_blank">Х</a><br />
Источник: Х

Согласно The Information, OpenAI нацеливается на январь в релизе Operator.

Какова производительность ИИ агента?

Нужно понимать, что агенты сегодня довольно примитивны. Но некоторые эксперты выразили обеспокоенность по поводу их безопасности, если технология будет быстро совершенствоваться.

Нужно оговориться, что OpenAI пока не опубликовал данные производительности Operator по сравнению с другими инструментами, и это неофициальные данные.

На OSWorld (бенчмарке, который пытается имитировать реальную компьютерную среду, «OpenAI Computer Use Agent (CUA)» — возможно, модель ИИ, лежащая в основе Operator — набирает 38,1%, опережая ИИ агента Anthropic, но значительно отстает от человеческого результата в 72,4%.

OpenAI CUA превосходит человеческую производительность на WebVoyager, который оценивает способность ИИ перемещаться и взаимодействовать с веб-сайтами. Но эта модель не дотягивает до человеческих результатов на другом веб-бенчмарке, WebArena, согласно просочившимся бенчмаркам.

Оценка ИИ агентов. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fbtibor91%2Fstatus%2F1881285255266750564%3Fref_src%3Dtwsrc%255Etfw%257Ctwcamp%255Etweetembed%257Ctwterm%255E1881285255266750564%257Ctwgr%255Ee9a19bc3edef0d0cf16cc0634865bbcc91289b7b%257Ctwcon%255Es1_%26amp%3Bref_url%3Dhttps%253A%252F%252Ftechcrunch.com%252F2025%252F01%252F20%252Fopenais-agent-tool-may-be-nearing-release%252F&postId=1765868" rel="nofollow noreferrer noopener" target="_blank">Х</a>
Оценка ИИ агентов. Источник: Х

Operator также (пока) испытывает трудности с задачами, которые легко может выполнить человек, если верить утечке.

В тесте, в котором Operator должен был зарегистрироваться у облачного провайдера и запустить виртуальную машину, Operator справился только в 60% случаев. В тесте на создание биткойн-кошелька Operator справился только в 10% случаев.

Оценка ИИ агентов. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fbtibor91%2Fstatus%2F1881285255266750564%3Fref_src%3Dtwsrc%255Etfw%257Ctwcamp%255Etweetembed%257Ctwterm%255E1881285255266750564%257Ctwgr%255Ee9a19bc3edef0d0cf16cc0634865bbcc91289b7b%257Ctwcon%255Es1_%26amp%3Bref_url%3Dhttps%253A%252F%252Ftechcrunch.com%252F2025%252F01%252F20%252Fopenais-agent-tool-may-be-nearing-release%252F&postId=1765868" rel="nofollow noreferrer noopener" target="_blank">Х</a>
Оценка ИИ агентов. Источник: Х

Operator хорошо справляется с оценками безопасности, включая тесты, которые пытаются заставить систему выполнять «незаконные действия» и искать «конфиденциальные персональные данные».

Оценка ИИ агентов с точки зрения безопасности. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fbtibor91%2Fstatus%2F1881285255266750564%3Fref_src%3Dtwsrc%255Etfw%257Ctwcamp%255Etweetembed%257Ctwterm%255E1881285255266750564%257Ctwgr%255Ee9a19bc3edef0d0cf16cc0634865bbcc91289b7b%257Ctwcon%255Es1_%26amp%3Bref_url%3Dhttps%253A%252F%252Ftechcrunch.com%252F2025%252F01%252F20%252Fopenais-agent-tool-may-be-nearing-release%252F&postId=1765868" rel="nofollow noreferrer noopener" target="_blank">Х</a>
Оценка ИИ агентов с точки зрения безопасности. Источник: Х

Как сообщается , тестирование безопасности является одной из причин длительного цикла разработки Operator.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

2
5 комментариев

Представляю, как это упростит выполнение рутинных задач на компьютере. Но немного страшно, что ИИ будет сам принимать решения. Надеюсь, у них там все под контролем с безопасностью.

Интересно, как это будет работать на практике. Смогу ли я просто сказать: "Забронируй мне билеты в Рим на следующие выходные", и он все сделает сам? Или нужно будет давать более точные инструкции? И сколько это будет стоить?

Пока это все выглядит как красивые обещания. Посмотрим, что будет на деле. Утечки и бенчмарки – это одно, а реальная работа – совсем другое. Сомневаюсь, что он будет работать идеально с первого раза.

Меня больше всего беспокоит вопрос безопасности. Как они собираются защищать мои данные, если ИИ будет иметь доступ к моему компьютеру? И что, если он начнет делать что-то не то? Это очень серьезные вопросы.

Это будет доступно только для разработчиков или для обычных пользователей тоже? И какие системные требования будут? Надеюсь, не нужно будет покупать супер-мощный компьютер.