DeepSeek представила «улучшенную» модель VL2 для распознавания информации на изображениях
Она может искать и размечать объекты на фотографиях.
- Компания выпустила серию моделей DeepSeek-VL2, созданных по принципу Mixture of Experts (MoE) или «смеси экспертов» — объединения нескольких нейросетей для решения комплексных задач.
- Это модели DeepSeek-VL2-Tiny, DeepSeek-VL2-Small и DeepSeek-VL2 на 1 млрд, 2,8 млрд и 4,5 млрд параметров соответственно. Они «превосходят» предыдущую DeepSeek-VL.
- По словам разработчиков, VL2 понимает и объясняет содержание документов, таблиц и диаграмм, а также предлагает рецепты по фотографиям продуктов. Ещё она распознаёт письменный текст и может его напечатать, пишут пользователи.
DeepSeek-VL2 объясняет все блоки схемы на изображении. Источник: AmigoChat
- Модели можно показать объект, и она найдёт похожий на другом изображении.
Эталонное изображение кота и фотография, на которой нужно обвести такой же объект. Скриншот vc.ru
Модель попыталась обвести кота на втором снимке. Скриншот vc.ru
Ещё несколько примеров
DeepSeek-VL2 описала, что происходит на фотографии, но не написала, что автомобиль нарушает правила, проезжая на красный. Скриншот vc.ru
Модель попробовала объяснить значение мема. Скриншот vc.ru
- DeepSeek-VL2 пока не добавили в чат-бот, версия VL2-Small доступна в бесплатной демоверсии на Hugging Face.
- В декабре 2024 года Alibaba выпустила модель QvQ-72B для анализа графиков и таблиц. А в январе 2025-го — Qwen 2.5-VL для разметки объектов на изображении. Они доступны в чат-боте Qwen Chat.
- OpenAI обучила ChatGPT распознавать изображения в 2023 году.
68 комментариев