IDP: новое дыхание OCR

В современном мире, где объемы документооборота стремительно растут, технологии IDP (Intelligent Document Processing) становятся незаменимыми помощниками для бизнеса. Основанные на давно известной технологии оптического распознавания символов — OCR (Optical Character Recognition), они позволяют значительно ускорить и упростить процесс извлечения данных из различных типов документов. Как IDP трансформирует традиционные подходы к обработке информации, рассказывает Кристина Бахмаер, продакт-менеджер направления OCR в ROBIN компании SL Soft.

Тема IDP сегодня актуальна как никогда, но совсем не потому, что ранее ее не существовало. В основе процессов интеллектуального распознавания лежит давно всем известная технология OCR — оцифровка текстовых данных с изображений и сканов документов без текстового слоя.

Такая популярность IDP обусловлена возрастающим количеством документов, которые накапливаются в корпоративных системах, а также увеличением числа бизнес-процессов, требующих обработки этих бумаг. Документы могут быть структурированными и неструктурированными, приходить в виде бумажных копий, сканов, фотографий или сразу в электронном виде — в любом случае, из них нужно извлечь определенные данные, которые впоследствии будут направлены в учетные, аналитические и другие корпоративные системы.

Если заниматься оцифровкой классическим способом, перенося данные с документов в нужные системы вручную, то процесс занимает слишком много человеко-часов и погружает сотрудников в вязкую, рутинную и совсем не творческую работу.

Поэтому уже более двадцати лет во многих организациях, особенно с большим и сложным документооборотом, востребована технология оптического распознавания символов — OCR. Именно с ее помощью документы становятся машиночитаемыми, что значительно повышает скорость их обработки: в разных кейсах мы встречали данные о 5-кратном, 10-кратном и даже 30-кратном ускорении. Причем, как правило, чем больше объем документов, тем сильнее ощущается эффект.

В свою очередь, это позволяет компании сократить количество входящих актов и оперативно совершать различные манипуляции с распознанными данными, например:

формировать архивы с поиском по ключевым словам;
сравнивать данные двух версий документов с подсвечиванием не совпадающих фрагментов;
копировать части информации для ее дальнейшего использования оператором.

Однако технологии не стоят на месте. Со временем потребность в оптимизации бизнес-процессов только возрастает, а с ней и полет творческой мысли разработчиков. Почему бы, например, не настроить систему на извлечение из документов конкретных данных (атрибутов) для автоматизированной организации различных хранилищ, формирования отчетов, сводных таблиц, автозаполнения форм, шаблонов документов и т. п.

Проблема в том, что зачастую в документе содержится всего 5-10% полезной информации из всего объема данных — то есть тех символов, которые используются в бизнес-процессе. И расположены они могут быть не всегда в одном и том же месте, если это неструктурированный документ — например, письмо или заявление. Простые алгоритмы распознавания, которыми пользуются инструменты OCR, хоть и эффективны, но имеют ограниченный спектр действий. Для того, чтобы система могла справиться с большим объемом задач, нужно обогатить ее технологиями искусственного интеллекта, такими как IDP — интеллектуальной обработкой документов с помощью ML и LLM.

Реализация взаимодействия технологий ИИ внутри инструмента IDP может быть абсолютно разной, но работают они по одному и тому же принципу: сначала мы обучаем на большом датасете интеллектуальную модель, чтобы она идентифицировала, какие именно данные и в каком виде нам нужны, а затем уже запускаем ее в работу.

А вот более наглядный практический пример. Возьмем бухгалтерский документ — УПД, и попытаемся извлечь из него полезные сведения.

В документе содержатся 19 полей и сотни символов. Чтобы оцифровать этот документ и перенести информацию о поставке в 1С, нам понадобятся данные об ИНН из поля 2а, наименование товара из столбца 2, количество из столбца 3 и данные о «Всего к оплате» из столбца 9 табличной части.

Если мы воспользуемся только технологией OCR, то получим все распознанные символы в одну кучу:

IDP выдает уже гораздо более красивый и четкий результат:

Это как раз то, что надо. Данные на этом рисунке структурированы и легко подлежат дальнейшей обработке.

Итак, технология IDP применяется для оптимизации любых процессов, требующих интеллектуальной обработки больших потоков документов. Чаще всего этот инструмент используется в крупных и средних компаниях с огромным сложным документооборотом. На малых предприятиях использование IDP не настолько обязательная статья расходов, поскольку операций, подлежащих оптимизации, чаще всего не так много, а свободные финансовые ресурсы пока лучше инвестировать в другие направления развития бизнеса.

Но по мере роста компании, когда становится понятно, что сотрудники тратят много ценных ресурсов на обработку различных типов документов. В таких условиях внедрение IDP становится все более привлекательным решением. Мы рекомендуем обратиться за консультацией для детального анализа бизнес-метрик и оценки преимуществ внедрения OCR/IDP с учетом индивидуальных параметров организации.

Вот самые популярные вопросы, которые возникают у многих наших клиентов:

У некоторых заказчиков есть собственный центр ИТ-компетенций, который внедряет и поддерживает все решения самостоятельно. Но более распространенный случай — когда специалисты компании-поставщика технологии IDP помогают с первоначальным обучением модели, поскольку от качества этой работы зависит ее эффективность. А дальше вендоры практикуют разные подходы к дообучению моделей для извлечения атрибутов из распознанного текста пользователями: у кого-то есть полноценный инструмент для разработки шаблона распознавания, а кто-то из вендоров предлагает воспользоваться готовым инструментом «из коробки», без необходимости самостоятельного дообучения.

Затем эти данные можно обрабатывать любым удобным способом или обратиться к вендорам, чтобы уже они сделали из беспорядочного потока документов понятный, простой и быстрый процесс.

Если вы устанавливаете решение себе в контур и используете без выхода в интернет, то переживать стоит только за уровень внутренней ИТ-безопасности.

Разбег очень большой — от нуля до сотен миллионов рублей. Цена зависит от того, каким ресурсом вы пользуетесь, какое количество страниц и с какой скоростью будут обрабатываться, какой нужен уровень безопасности, сколько компания тратит на обслуживание «железа» при размещении на своих мощностях и т.д. Каждый расчет сугубо индивидуален.

Нет, срок интеграции IDP — от 30 минут. Современные решения предлагают различные интерфейсы взаимодействия, чтобы клиент мог подобрать подходящий. Самый популярный интерфейс — API — есть у всех поставщиков технологии. К нему прилагается описание, а техническое сопровождение в первый год, как правило, входит в стоимость лицензий.

Расскажите о своих решениях или открытиях в интеллектуальной обработке больших потоков документов! Возможно, вы нашли другие способы решения таких задач?

Новое = хорошо обученное старое

Те же данные, только более структурированные

Всё, о чем боятся спросить

1. Кто обучает модель?

2. Нужные данные получены. Что дальше?

3. Использование модели — это безопасно?

4. Сколько стоит подобное решение?

5. Долго ли длится внедрение?