DeepSeek представила «улучшенную» модель VL2 для распознавания информации на изображениях

Она может искать и размечать объекты на фотографиях.

Компания выпустила серию моделей DeepSeek-VL2, созданных по принципу Mixture of Experts (MoE) или «смеси экспертов» — объединения нескольких нейросетей для решения комплексных задач.
Это модели DeepSeek-VL2-Tiny, DeepSeek-VL2-Small и DeepSeek-VL2 на 1 млрд, 2,8 млрд и 4,5 млрд параметров соответственно. Они «превосходят» предыдущую DeepSeek-VL.
По словам разработчиков, VL2 понимает и объясняет содержание документов, таблиц и диаграмм, а также предлагает рецепты по фотографиям продуктов. Ещё она распознаёт письменный текст и может его напечатать, пишут пользователи.

DeepSeek-VL2 объясняет все блоки схемы на изображении. Источник: AmigoChat

DeepSeek-VL2 пока не добавили в чат-бот, версия VL2-Small доступна в бесплатной демоверсии на Hugging Face.
В декабре 2024 года Alibaba выпустила модель QvQ-72B для анализа графиков и таблиц. А в январе 2025-го — Qwen 2.5-VL для разметки объектов на изображении. Они доступны в чат-боте Qwen Chat.
OpenAI обучила ChatGPT распознавать изображения в 2023 году.

Ещё несколько примеров