Китайская Alibaba выпустила ИИ-модель QVQ — она может рассуждать и анализировать изображения
Доступна бесплатная демоверсия.
- QvQ-72B-Preview — мультимодальная ИИ-модели с открытым исходным кодом, которая может анализировать графики и изображения, чтобы решать задачи. Демоверсия доступна на Hugging Face, код есть на GitHub.
- Разработчики заявляют, что QvQ-72B лучше показывает себя в математике, по сравнению с o1 и GPT-4o от OpenAI и Claude 3.5 Sonnet. В примере на сайте компании нейросеть решает математическую задачу, используя данные из таблицы.
Источник: Qwen
- В коротком тесте редактора vc.ru модель смогла проанализировать изображение и дать верный ответ на задачу по физике. Она понимает запросы на русском, при этом показывает цепочку рассуждений на английском.
Слева изображение для анализа, справа — «рассуждения» модели.
Итоговый ответ модель дала на русском.
- Это экспериментальная версия, она может менять язык и выдавать «многословные ответы без каких-либо выводов», предупреждают в компании.
- Alibaba Cloud выпустила свою первую модель с возможностью рассуждений QwQ-32B-Preview 27 ноября 2024 года. Она может обрабатывать запросы на 32 тысячи слов, а в некоторых тестах превосходит модель o1 от OpenAI. Также доступна по лицензии Apache 2.0 на Hugging Face.
- Другие модели с возможностью рассуждений — Gemini 2.0 Flash Thinking от Google, o1 и o3 от OpenAI и китайская DeepSeek 2.5. Все они могут анализировать визуальный контент.
41 комментарий