DeepSeek представила «улучшенную» модель VL2 для распознавания информации на изображениях

Она может искать и размечать объекты на фотографиях.

  • Компания выпустила серию моделей DeepSeek-VL2, созданных по принципу Mixture of Experts (MoE) или «смеси экспертов» — объединения нескольких нейросетей для решения комплексных задач.
  • Это модели DeepSeek-VL2-Tiny, DeepSeek-VL2-Small и DeepSeek-VL2 на 1 млрд, 2,8 млрд и 4,5 млрд параметров соответственно. Они «превосходят» предыдущую DeepSeek-VL.
  • По словам разработчиков, VL2 понимает и объясняет содержание документов, таблиц и диаграмм, а также предлагает рецепты по фотографиям продуктов. Ещё она распознаёт письменный текст и может его напечатать, пишут пользователи.
DeepSeek-VL2 объясняет все блоки схемы на изображении. Источник: AmigoChat
  • Модели можно показать объект, и она найдёт похожий на другом изображении.
Эталонное изображение кота и фотография, на которой нужно обвести такой же объект. Скриншот vc.ru
Эталонное изображение кота и фотография, на которой нужно обвести такой же объект. Скриншот vc.ru
Модель попыталась обвести кота на втором снимке. Скриншот vc.ru
Модель попыталась обвести кота на втором снимке. Скриншот vc.ru

Ещё несколько примеров

DeepSeek-VL2 описала, что происходит на фотографии, но не написала, что автомобиль нарушает правила, проезжая на красный. Скриншот vc.ru
DeepSeek-VL2 описала, что происходит на фотографии, но не написала, что автомобиль нарушает правила, проезжая на красный. Скриншот vc.ru
Модель попробовала объяснить значение мема. Скриншот vc.ru
Модель попробовала объяснить значение мема. Скриншот vc.ru
  • DeepSeek-VL2 пока не добавили в чат-бот, версия VL2-Small доступна в бесплатной демоверсии на Hugging Face.
  • В декабре 2024 года Alibaba выпустила модель QvQ-72B для анализа графиков и таблиц. А в январе 2025-го — Qwen 2.5-VL для разметки объектов на изображении. Они доступны в чат-боте Qwen Chat.
  • OpenAI обучила ChatGPT распознавать изображения в 2023 году.
11
1
68 комментариев