Владелец TikTok выпустил ИИ-агента UI-TARS для управления компьютером вместо пользователя — он умеет «рассуждать»
У него открытый исходный код, есть приложение для macOS.
UI-TARS выполняет запрос «Помоги мне узнать, какая сейчас погода в Калифорнии»
- ByteDance представила ИИ-помощника, который может выполнять действия в настольных, мобильных и веб-приложениях от лица пользователя по запросу в чате.
- Модель научили «рассуждать» для выполнения сложных задач. «Мысли» ИИ отображаются в отдельной вкладке.
Пример рассуждений UI-TARS: «Мне нужно подтвердить выбранную дату вылета 5 февраля 2025 года. Нажав кнопку "Готово", я завершу выбор даты и смогу перейти к указанию даты возвращения или других критериев поиска». Источник: ByteDance
- У UI-TARS есть краткосрочная и долгосрочная память, он учится и адаптируется к непредвиденным ситуациям «с минимальным вмешательством человека», — пишут исследователи из ByteDance.
- В примерах модель нашла билеты на рейс в Нью-Йорк и отсортировала их по цене, а также смогла установить расширение AutoDocstring в приложение для разработчиков VS Code.
UI-TARS выполняет запрос «Помоги мне отправить твит с текстом "Привет, мир!"». Источник: ByteDance
- Компания заявляет, что в тестах UI-TARS превосходит GPT-4o, Claude 3.5 Sonnet от Anthropic, Gemini 1.5 Pro от Google и модели Qwen.
Показатели моделей в тестах. Источник: ByteDance
- ByteDance выпустила приложение UI-TARS для macOS, ссылка и инструкция для скачивания есть на GitHub. Также планируют добавить версию для Windows. У модели открытый исходный код, который можно установить на свой ПК.
Инструкции по установке приложения на станице проекта на GitHub. Скриншот vc.ru
48 комментариев