Интеллектуальные агенты, которые сочетают в себе способность к логическому мышлению и способность к действию в рамках единой модели «зрение-язык» для эффективной автоматизации задач на вашем компьютере на уровне, сравнимом с человеческим 🤔- Предлагаются в трёх вариантах: 2B, 7B и 72B. - Обученные на базе Qwen2-VL с поддержкой SOFT & DPO - Версия 72B показывает 82,8% на VisualWebBench (опережая GPT-4 и Claude) - SOTA демонстрирует выдающиеся результаты на 10 и более тестах.Модели на Huggingface: https://huggingface.co/bytedance-research/UI-TARS-72B-DPOПочитать: https://huggingface.co/papers/2501.12326Код на GitHub: https://github.com/bytedance/UI-TARSПриложение на пк: https://github.com/bytedance/UI-TARS-desktopTelegram: @mlearning_channel