В китайский чат-бот Qwen добавили голосовой режим и возможность просматривать камеру
Функции доступны бесплатно.
- Alibaba разработала архитектуру, которая позволяет Qwen Chat «рассуждать» и разговаривать одновременно.
- ИИ-помощник поддерживает только английский и китайский языки. Голосовой и видеочат работают в браузере Chrome.
Пример речи голосового помощника в Qwen Chat. При запросе сказать что-нибудь на русском модель выдала набор неразборчивых звуков. Скринкаст vc.ru
- Модель может рассказать научный факт или объяснить тему, но иногда «галлюцинирует». После просьбы рассказать шутку и затем страшилку она два раза выдала одинаковую фразу: рассказала, что столица Франции — Париж.
Модель не поняла запрос рассказать шутку и начала перечислять достопримечательности Парижа. Скринкаст vc.ru
- Нажав на кнопку «видеочат», можно показать боту предметы через камеру смартфона или ноутбука. Одновременно будет работать голосовой режим. Например, ИИ может определить вид цветка и рассказать, как за ним ухаживать.
Режим видео-чата. Скриншот vc.ru
- Компания также заявляет, что чат-боту можно будет демонстрировать экран. В будущем добавят поддержку протокола MCP (Model context protocol) для интеграции с другими приложениями.
- В дополнение Alibaba выпустили модель QVQ-Max — «визуальную рассуждающую модель». Ей можно прислать изображение или видео и попросить проанализировать их. Для режима размышлений нужно нажать кнопку Thinking.
В примере модель «гадает» по руке. Источник: Qwen
Нейросеть описала «линии сердца, головы и жизни» и назвала черты характера пользователя. Его будущее предсказывать не стала. Источник: Qwen
- Модель может распознавать объекты на видео и некоторых личностей, например узнала основателя xAI Илона Маска, а главу OpenAI Сэма Альтмана — нет. Однако модель нельзя использовать, чтобы расшифровывать видео, у неё нет функции распознавания аудио.
QVQ-Max размышляет о том, что не сможет полноценно посмотреть видео, но распознает кадры. После этого модель решила «выдумать» реплики Альтмана и Маска. Полный диалог можно прочитать по ссылке
- 27 марта 2025 года Alibaba представила Qwen 2.5-Omni-7B — мультимодальную модель с открытым исходным кодом на 7 млрд параметров, которую можно запустить на смартфонах и ноутбуках.
28 комментариев