Ася Карпова

Китайская Alibaba выпустила ИИ-модель QVQ — она может рассуждать и анализировать изображения

Доступна бесплатная демоверсия.

QvQ-72B-Preview — мультимодальная ИИ-модели с открытым исходным кодом, которая может анализировать графики и изображения, чтобы решать задачи. Демоверсия доступна на Hugging Face, код есть на GitHub.
Разработчики заявляют, что QvQ-72B лучше показывает себя в математике, по сравнению с o1 и GPT-4o от OpenAI и Claude 3.5 Sonnet. В примере на сайте компании нейросеть решает математическую задачу, используя данные из таблицы.

Источник: Qwen

В коротком тесте редактора vc.ru модель смогла проанализировать изображение и дать верный ответ на задачу по физике. Она понимает запросы на русском, при этом показывает цепочку рассуждений на английском.

Слева изображение для анализа, справа — «рассуждения» модели.

Итоговый ответ модель дала на русском.

Это экспериментальная версия, она может менять язык и выдавать «многословные ответы без каких-либо выводов», предупреждают в компании.

Alibaba Cloud выпустила свою первую модель с возможностью рассуждений QwQ-32B-Preview 27 ноября 2024 года. Она может обрабатывать запросы на 32 тысячи слов, а в некоторых тестах превосходит модель o1 от OpenAI. Также доступна по лицензии Apache 2.0 на Hugging Face.
Другие модели с возможностью рассуждений — Gemini 2.0 Flash Thinking от Google, o1 и o3 от OpenAI и китайская DeepSeek 2.5. Все они могут анализировать визуальный контент.

#новости

8

4

1

1

40 комментариев