Ася Карпова

В китайский чат-бот Qwen добавили голосовой режим и возможность просматривать камеру

Функции доступны бесплатно.

Alibaba разработала архитектуру, которая позволяет Qwen Chat «рассуждать» и разговаривать одновременно.
ИИ-помощник поддерживает только английский и китайский языки. Голосовой и видеочат работают в браузере Chrome.

Пример речи голосового помощника в Qwen Chat. При запросе сказать что-нибудь на русском модель выдала набор неразборчивых звуков. Скринкаст vc.ru

Модель может рассказать научный факт или объяснить тему, но иногда «галлюцинирует». После просьбы рассказать шутку и затем страшилку она два раза выдала одинаковую фразу: рассказала, что столица Франции — Париж.

Модель не поняла запрос рассказать шутку и начала перечислять достопримечательности Парижа. Скринкаст vc.ru

Нажав на кнопку «видеочат», можно показать боту предметы через камеру смартфона или ноутбука. Одновременно будет работать голосовой режим. Например, ИИ может определить вид цветка и рассказать, как за ним ухаживать.

Режим видео-чата. Скриншот vc.ru

Компания также заявляет, что чат-боту можно будет демонстрировать экран. В будущем добавят поддержку протокола MCP (Model context protocol) для интеграции с другими приложениями.
В дополнение Alibaba выпустили модель QVQ-Max — «визуальную рассуждающую модель». Ей можно прислать изображение или видео и попросить проанализировать их. Для режима размышлений нужно нажать кнопку Thinking.

В примере модель «гадает» по руке. Источник: Qwen

Нейросеть описала «линии сердца, головы и жизни» и назвала черты характера пользователя. Его будущее предсказывать не стала. Источник: Qwen

Модель может распознавать объекты на видео и некоторых личностей, например узнала основателя xAI Илона Маска, а главу OpenAI Сэма Альтмана — нет. Однако модель нельзя использовать, чтобы расшифровывать видео, у неё нет функции распознавания аудио.

QVQ-Max размышляет о том, что не сможет полноценно посмотреть видео, но распознает кадры. После этого модель решила «выдумать» реплики Альтмана и Маска. Полный диалог можно прочитать по <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fchat.qwen.ai%2Fs%2F6903f321-b6fb-46db-9147-3d7055eab2f1&postId=1891986" rel="nofollow noreferrer noopener" target="_blank">ссылке</a>

27 марта 2025 года Alibaba представила Qwen 2.5-Omni-7B — мультимодальную модель с открытым исходным кодом на 7 млрд параметров, которую можно запустить на смартфонах и ноутбуках.

#новости #alibaba

10

28 комментариев