Как применяют компьютерное зрение в работе с визуальным контентом

Рассказываю принцип действия компьютерного зрения и на примерах показываю, как технология упрощает работу с графическим контентом.

Как работает компьютерное зрение

Компьютерное зрение (КЗ) — это прикладная область искусственного интеллекта, которая занимается анализом изображений и видео. Технология позволяет распознавать визуальные объекты. Например, система увидит, где на фотографии лицо, где текст, а где здание. С этой задачей успешно справляются нейросети.

Нейросеть — один из алгоритмов искусственного интеллекта, если точнее — метод машинного обучения. Алгоритм, используя данные, решает определённую задачу, в процессе обучения он учится находить закономерности в этих данных и автоматически их обрабатывать. Для задачи распознавания, нейросетей обучают на большом массиве визуальных данных. Алгоритм запоминает характерные признаки объектов и по этим признакам определяет схожие объекты уже на других изображениях.

Александра Царёва, ведущий специалист одной из крупнейших ИТ-компаний в России, отмечает, что за последние пять лет точность нейросетей в распознавании объектов возросла с 70 до 98%.

Нейросети решают и другие задачи, которые помогают бизнесу автоматизировать разные процессы. Например, они умеют распознавать живую речь человека, таким образом с помощью голоса можно управлять мобильном приложением или добавить голосовой поиск на сайт. Подробнее о сервисах и продуктах, работающих на нейросетях, я писал в этой статье.

Как компьютерное зрение используют в бизнесе

Технологии КЗ используют для работы с визуальным контентом.

Один из вариантов — организовать поиск товаров в каталоге с большим ассортиментом. По фотографии — нейросеть подберёт похожие изображения. По тексту — нейросеть распознает, что есть на фотографии и подберёт соответствующее описание.

Генеративные нейросети — тренд компьютерного зрения, умеют генерировать нейронные маски лиц людей, а по текстовому описанию создавать высокореалистичные изображения. Ещё они способны улучшить качество изображения: повысить разрешение удалить шумы и размытие. Это упрощает производство графического контента и помогает в работе дизайнерам и фотографам.

Умные камеры от Яндекса и Google при наведении на объект, дадут информацию о нём, подскажут, где его купить, или найдут нечто похожее. Умеют распознать текст с изображения, после чего его можно будет скопировать и отредактировать.

Расскажу об этих и других инструментах подробнее. Они уже есть на рынке в ряде сервисов и приложений.

Поиск по изображению

В первую очередь данная функция присутствует в поисковых системах. Яндекс и Google способны по изображению найти его копию или нечто похожее, указав сайты, где это выложены. Если это товар, то поисковики покажут интернет-магазины с ним и подборку аналогичных товаров.

Яндекс использует для поиска «Умную камеру», она есть в браузере компьютера и телефона. С телефона достаточно навести камеру на интересующий объект, и вы получите результаты поиска. Ещё «Умная камера» даёт информацию об объекте. Например, по фотографии машины можно узнать её марку и технические характеристики.

<p>Поиск при помощи умной камеры Яндекса в браузере.</p>

Поиск при помощи умной камеры Яндекса в браузере.

Её аналог — «Google Объектив». Для телефона есть отдельное приложение. Сидя с пк нужно кликнуть на изображение правой клавишей мыши и нажать «Найти через Google Объектив». Однако основной поиск по изображению в браузере находится в Google картинках.

<p>Поиск похожих товаров с помощью мобильной версии Google Объектива.</p>

Поиск похожих товаров с помощью мобильной версии Google Объектива.

Также есть платформы, которые дают возможность встроить поиск по фотографиям в интернет-магазины на сайт или мобильное приложение. Это будет полезно маркетплейсам с каталогом товаров в несколько тысяч изображений. Пользователь загружает фотографию и получает наиболее похожие варианты из каталога. Такие решения предлагает англоязычный сервис Imagga и российская компания EoraMage. У последней есть сервис, который проверяет оригинальность товарного знака: алгоритм за 5 секунд найдёт все похожие логотипы, точность распознавания составляет 80%.

Текстовое описание изображений

Если сайт имеет большой объём графического контента, для каждого изображения потребуется текстовое описание. По ним пользователи будут находить контент внутри сайта. Заниматься этим вручную — колоссальный труд, а нейросети автоматизируют процесс. Они анализируют , что находится на изображении и подбирают под это текст.

Так умеет делать нейросетевая модель ruCLIP, созданная командой разработчиков из «Сбера». ruCLIP обучали на уникальных парах «картинка-текст», модель соотносила, насколько текстовое описание совпадает с содержанием картинки. Самая крупная версия модели изучила 240 млн пар. В работе СLIP участвуют две нейросети, одна обрабатывает изображение, вторая — текст, и для обоих типов данных создаётся единое пространство.

Чтобы получить текстовое описание, пользователю надо подать модели ссылку на изображение или загрузить его в формате base64.

Ниже представлена иллюстрация, где ruCLIP оценил сходство текста и изображений. Чем ближе к 1, тем оно выше

<p>Источник: https://habr.com/ru/company/sberdevices/blog/564440/</p>

Источник: https://habr.com/ru/company/sberdevices/blog/564440/

В приложении Imagga есть инструмент, который может подобрать под изображения ключевые слова для их описания, а также теги.

Например, любому изображению в интернете можно прописать ALT-тег. Туда вносят его текстовое описание по которому поисковики понимают содержание картинки. Пользователь увидит картинку в выдаче, если она совпадает с его поисковым запросом. Ещё за счёт ALT-тега пользователь видит текстовую информацию об изображении, если само оно не отображается.

Таким образом, через теги визуальный контент оптимизируют для поисковых систем.

ALT-тег прописывается в коде html, выглядит это так:

<img src=»/images/vinograd.jpg» alt=»Виноград белый б/к 300 г в стакане»/>

.

Ниже скриншот сайта, где не прогрузилось изображение, но прописан ALT-тег.

<p>Источник: https://www.trinet.ru/blog/seo/kak-pravilno-zapolnyat-atributy-alt-title/</p>

Источник: https://www.trinet.ru/blog/seo/kak-pravilno-zapolnyat-atributy-alt-title/

Это решение внедрили в облачную компанию Intelligence Bank. Компания предоставляет инструменты другим организациям для управления своим визуальным контентом. Как правило, их клиенты загружают изображения большими партиями, не оставляя каких-либо подписей. Порой объём загруженных фотографий за месяц доходил до миллиона. Технология Imagga позволила автоматически назначать изображениям соответствующие названия и теги, разбила их на категории и сделала возможным расширенный поиск по ключевым словам.

Похожее решение предлагает ImageSEO. Это веб-приложение и плагин на WordPress. Сервис показывает пользователю полный отчёт, как настроить изображения под SEO и увеличить трафик.

Распознание текста

Одна из технологий компьютерного зрения — OCR (optical character recognition, или оптическое распознавание символов). OCR умеет извлекать текст с изображения. Уже с таким текстом получится взаимодействовать на компьютере — редактировать или копировать. Например, есть сервисы с технологией OCR, которые переводят сканы документов, сохранённые в PDF, в другие форматы, которые можно редактировать: Word, Excel и т.д.

Задачу распознавания текста хорошо решают нейросети. Принцип следующий. Алгоритм запоминает, как выглядит определённый символ алфавита при разных способах написания. Это позволяет замечать на изображении текстовые символы и идентифицировать их.

Технологию OCR используют различные сервисы, которые автоматизируют документооборот и тем самым спасают от рутинной работы бухгалтеров и менеджеров.

Среди них — Dbrain и Биорг, они помогают крупным компаниям, которые сталкиваются с тысячами документов в сутки.

В системе Dbrain документ обрабатывает каскад нейросетей. Сперва его готовят к прочтению: устанавливается тип документа, определяются поля с атрибутами (Ф.И.О, место жительства, образование и т.п.), затем распознаётся текст. Если «прочесть» не удалось, в работу включаются операторы «Яндекс Толоки», при этом гарантируется безопасность персональных данных. Нейросети определяют поля с точностью до 92%, а помощь верификаторов поднимает её до 99,5%. Алгоритмы сокращают затраты на распознавание в 5 раз.

Система работает с документами государственного образца, но её можно обучить и под документацию клиента. Нейросети точно распознают некачественные сканы, фотографии с дешёвых смартфонов, а одновременно могут обрабатывать 500 пакетов документов, не теряя скорость и качество.

Биорг также использует нейросети и имеет похожий принцип обработки документов. За 2021 год он распознал более 35 млн документов от заказчиков, компания заверяет точность 99+% для любого документа.

Ниже показан их алгоритм обработки данных документа. 6

Обычным пользователям поможет «Умная камера Яндекса» или «Google Объектив». Оба приложения распознают текст с картинки, после чего его можно будет скопировать, а иностранный текст будет переведён .

Перевод умной камеры Яндекса поверх иностранного текста на изображении.
Перевод умной камеры Яндекса поверх иностранного текста на изображении.

Google справится с рукописным текстом, но любой текст распознать не сможет, печатный вариант распознаётся заметно лучше.

Эти функции доступны в телефоне и в браузере на компьютере.

<p> Google Объектив в браузере распознаёт рукописный текст.</p>

Google Объектив в браузере распознаёт рукописный текст.

Генерация графического контента

Эксперты по искусственному интеллекту на конференции OpenTalks AI одним из трендов компьютерного зрения назвали нейросети GAN. Это генеративно-состязательные сети, за счёт них заметно повысилось качество распознавания и генерации лиц. Они также могут генерировать максимально реалистичные изображения.

Принцип работы таков: одна нейросеть на основе исходных данных пытается сгенерировать что-то похожее, а вторая определяет, насколько это отличается от оригинала. На основе GAN работает технология DeepFake. Она способна проанализировать черты лица, мимику человека и создать его нейронную маску. В дальнейшем её можно использовать для производства видеоконтента. Подобные решения присутствуют на рынке.

Валерий Шарипов, сооснователь сервиса Malivar (используют технологию DeepFake) подчёркивает потенциал нейросетей в генерации контента:

«Synthetic Media — это рынок контента, который полностью или частично сгенерирован нейросетями: видео, изображения, синтезированный голос и т.д. Технологии этой индустрии позволяют бизнесу и креаторам демократизировать создание контента — создавать его дешевле и быстрее. Наш фокус — генерация образов людей и использование на видео. Раньше такие технологии были доступны только большому продакшену, требовали специальных навыков, хорошего железа. Сейчас это стало доступно в несколько кликов».

Например, Malivar создаёт ролики с автоматической заменой лица, достаточно загрузить одно фото или сгенерировать новое лицо. Пользователь выбирает пол, возраст и получает уникальное лицо с правом на его использование.

Пример с переносом лица.

Источник: https://www.producthunt.com/products/malivar-io
Источник: https://www.producthunt.com/products/malivar-io

Подобную технологию реализует платформа Dowell. Сервис позиционирует себя как решение для рекламы и кинопродакшена. Разработчики обучили нейросети переносить лицо с видео на видео, добиваясь высокой реалистичности.

Ещё у разработчиков есть бесплатный проект Pantomime, он даёт возможность превратить фото в анимированный стикер. Анимировать можно разные изображения: фотографии живых людей, произведения искусства и пикчи с домашними животными.

Вот так выглядит анимированная собака.

Источник: https://pantomime.it/

Нейросетевая модель ru-DALL-E от разработчиков «Сбера» способна генерировать реалистичные изображения по текстовому описанию. За основу взят оригинал DALL-E от OpenAI. Нейросеть можно использовать в создании разного контента, например, иллюстраций для копирайтинга и рекламы, визуализации дизайна интерьера, визуальных абстрактных концепций и уникальных эмодзи. Устройство ruDALL-E строится на идее, что нейросеть обрабатывает текст и изображение как единый поток данных.

Татьяна Шаврина, один из разработчиков, описывает общий принцип генерации по описанию:

«Создание изображений происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества».

Модель обладает большим набором понятий и имеет высокий потенциал в генерации. Она умеет создавать антропоморфные версии животных и объектов, объединять несвязные концепции (кресло в форме авокадо) и преобразовывать существующие изображения, например, поменять его стиль. Ещё одна способность — достраивать прямоугольную область в существующем изображении.

Внизу изображения созданные ruDALL-E по описанию: «Картошка, стилизованная под аниме, с эффектами электрических разрядов, на фоне современного города в неоновомкиберпанк стиле».

Как применяют компьютерное зрение в работе с визуальным контентом

Источник: https://rudalle.ru/gallery/all

Особенность модели в том, что она точно учитывает текстовое описание и может создавать изображения, которых до неё не существовало. При этом генерировать возможно в неограниченном количестве. По ссылке доступна демоверсия генерации.

OpenAI, создавшая оригинальную DALL-E, выпустила новую версию - DALL-E 2. Она научилась добавлять и удалять элементы в существующих изображениях, не теряя реалистичности. При этом её изображения стали более точными и естественными и получили 4-х кратное увеличение в разрешении.

Так DALL·E 2 добавляет новые объекты на изображение.

Источник: https://openai.com/dall-e-2/

Улучшение качества изображения

На основе генеративно-состязательных сетей работает технология, которая может увеличивать качество изображения. Для этого нейросети запоминают, как должны выглядеть детали различных типов объектов: портретов, пейзажей, архитектуры. Это позволяет точно достраивать в изображении недостающие пиксели, так что даже при увеличении оно сохраняет свою чёткость.

Где это используют? Например, можно проработать фотографии товаров. Сделать их чётче, красивее, подчеркнуть важные детали и, соответственно, поднять продажи. Технология сокращает процесс постобработки фотографии, автоматически удаляет шумы и размытия, что экономит время фотографам. Ещё нейросети помогают сохранить качество сжатых изображений, а сжатые картинки ускоряют загрузку сайтов.

Такие инструменты есть у сервиса TopazLabs. Один из них — Gigapixel AI. С его помощью можно повысить детализацию и разрешение изображения до 600%. Другие приложения способны очистить изображение от шума, повысить резкость, а также масштабировать видео до 8К, оптимизировав частоту кадров.

Похожий сервис VanceAI Image Enlarger умеет увеличивать изображение до 800% без потери качества. Доступны масштабы от 2x, 4x, 6x до 8x.

Например, Gigapixel AI способен реалистично детализировать текстуру меха животных.

Источник: https://www.topazlabs.com/gigapixel-ai
Источник: https://www.topazlabs.com/gigapixel-ai

Интересные сервисы предлагает Nvidia, они бесплатны, но работают в демоверсии:

Nvidia Inpainting позволяет ретушировать изображения умной кистью. Нейросети заменят удалённую часть изображения на реалистичную компьютерную альтернативу.

Ниже демонстрация работы Nvidia Inpainting.

Источник: https://www.nvidia.com/research/inpainting/index.html

Canvas преобразовывает простые мазки в реалистичные пейзажи. Достаточно выбрать материал, например, траву и облака, затем нарисовать несколько форм и линий, а нейросеть превратит это в высококачественное изображение. На выбор есть 20 различных материалов и 9 стилей, которые определяют внешний вид картины. Для использования сервис необходимо скачать.

Здесь изображён пейзаж, созданный в приложении Canvas.

Источник: https://www.youtube.com/watch?v=mlZYRwJ2oJg
Источник: https://www.youtube.com/watch?v=mlZYRwJ2oJg

Вывод

Технология компьютерного зрения предлагает ряд инструментов, которые автоматизируют процесс работы с визуальным контентом и делают его эффективнее.

Это стало возможно за счёт нейросетей, которые позволили выполнять более сложные задачи в области компьютерного зрения, а также повысили точность распознавания объектов до 98%.

22
Начать дискуссию