Alibaba представила ИИ-модель, которая управляет компьютером и пишет код на основе картинок и документов

Часть функций доступна бесплатно на сайте, а для запуска ИИ-агента есть исходный код.

  • Модель Qwen 2.5-VL можно выбрать на сайте чат-бота Qwen Chat. Она распознаёт информацию на изображениях и может писать на её основе код — например, чтобы разметить объекты на дороге.
Qwen 2.5-VL пишет код, чтобы промаркировать мотоциклистов в шлемах и без. Здесь и далее источник: Qwen
  • Qwen 2.5-VL предлагают использовать для обучения других моделей. Она генерирует на изображениях ограничительные рамки с пояснениями и создаёт на выходе JSON-файлы.
Изображение с ограничительными рамки. Qwen 2.5-VL разметила мотоциклистов, которые носят и не носят шлемы
Изображение с ограничительными рамки. Qwen 2.5-VL разметила мотоциклистов, которые носят и не носят шлемы
  • Компания также заявляет, что Qwen 2.5-VL «понимает события» на видео длиннее часа. На сайт пока не добавили возможность загружать видеофайлы.
  • Также модель может писать код на основе документов и превращать их в HTML-страницы для веб-разработки.
Модель пишет код и создаёт HTML-страницу из документа
  • Qwen 2.5-VL можно использовать как ИИ-агента для работы на ПК и мобильных устройствах от лица пользователя. В одном из примеров она бронирует рейс в приложении на Android.
  • Файлы и код для установки ИИ-агента можно скачать с Hugging Face.
Qwen 2.5-VL запускает приложение Booking.com на Android и бронирует рейс из Чунцина в Пекин
  • Alibaba Cloud выпустила свою первую модель с возможностью рассуждений QwQ-32B-Preview 27 ноября 2024-го на Hugging Face. В некоторых тестах она превосходит модель o1 от OpenAI.
  • 9 января 2025 года для Qwen запустили отдельный сайт. Там можно задавать вопросы существующим ИИ-моделям, в том числе с поиском по интернету, а также генерировать картинки и видео.
8
19
33 комментария

А с таким справится?

10
3
1

медведоподобное существо неопределенного пола без трусов

1

Перевод на русский для своих продавцов сделали бы вначале адекватный )

6

Вот тоже удивляет, это в то время когда уже нейронки переводят превосхлдно.

1

И почему там мотоциклисты без шлема с красной и зелёной рамкой непонятно

ИИ который быстро и красиво все оформит это уже не новость , но радуют новые технологии с которым всем будет работать.

2