В китайский чат-бот Qwen добавили голосовой режим и возможность просматривать камеру

Функции доступны бесплатно.

  • Alibaba разработала архитектуру, которая позволяет Qwen Chat «рассуждать» и разговаривать одновременно.
  • ИИ-помощник поддерживает только английский и китайский языки. Голосовой и видеочат работают в браузере Chrome.
Пример речи голосового помощника в Qwen Chat. При запросе сказать что-нибудь на русском модель выдала набор неразборчивых звуков. Скринкаст vc.ru
  • Модель может рассказать научный факт или объяснить тему, но иногда «галлюцинирует». После просьбы рассказать шутку и затем страшилку она два раза выдала одинаковую фразу: рассказала, что столица Франции — Париж.
Модель не поняла запрос рассказать шутку и начала перечислять достопримечательности Парижа. Скринкаст vc.ru
  • Нажав на кнопку «видеочат», можно показать боту предметы через камеру смартфона или ноутбука. Одновременно будет работать голосовой режим. Например, ИИ может определить вид цветка и рассказать, как за ним ухаживать.
Режим видео-чата. Скриншот vc.ru
Режим видео-чата. Скриншот vc.ru
  • Компания также заявляет, что чат-боту можно будет демонстрировать экран. В будущем добавят поддержку протокола MCP (Model context protocol) для интеграции с другими приложениями.
  • В дополнение Alibaba выпустили модель QVQ-Max — «визуальную рассуждающую модель». Ей можно прислать изображение или видео и попросить проанализировать их. Для режима размышлений нужно нажать кнопку Thinking.
В примере модель «гадает» по руке. Источник: Qwen
В примере модель «гадает» по руке. Источник: Qwen
Нейросеть описала  «линии сердца, головы и жизни» и назвала черты характера пользователя. Его будущее предсказывать не стала. Источник: Qwen
Нейросеть описала «линии сердца, головы и жизни» и назвала черты характера пользователя. Его будущее предсказывать не стала. Источник: Qwen
  • Модель может распознавать объекты на видео и некоторых личностей, например узнала основателя xAI Илона Маска, а главу OpenAI Сэма Альтмана — нет. Однако модель нельзя использовать, чтобы расшифровывать видео, у неё нет функции распознавания аудио.
QVQ-Max размышляет о том, что не сможет полноценно посмотреть видео, но распознает кадры. После этого модель решила «выдумать» реплики Альтмана и Маска. Полный диалог можно прочитать по <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fchat.qwen.ai%2Fs%2F6903f321-b6fb-46db-9147-3d7055eab2f1&postId=1891986" rel="nofollow noreferrer noopener" target="_blank">ссылке</a>
QVQ-Max размышляет о том, что не сможет полноценно посмотреть видео, но распознает кадры. После этого модель решила «выдумать» реплики Альтмана и Маска. Полный диалог можно прочитать по ссылке
  • 27 марта 2025 года Alibaba представила Qwen 2.5-Omni-7B — мультимодальную модель с открытым исходным кодом на 7 млрд параметров, которую можно запустить на смартфонах и ноутбуках.
10
28 комментариев