Расставляем точки над ИИ: как мы используем искусственный интеллект в продуктах для интеллектуальной обработки информации
Всем привет! Меня зовут Катя Москаленко, я руководитель отдела маркетинга компании Content AI. Я часто хожу на ИТ-конференции, и клиенты, которым могут быть интересны наши решения для интеллектуальной обработки информации, задают вопросы: «Какой ИИ у вас в продуктах? В каких процессах он задействован?». В сегодняшней статье отвечу на эти вопросы и расскажу о методах работы ИИ при обработке документов.
ИИ бывает разным, но у всех его видов есть общая характеристика — любой ИИ-инструмент призван имитировать когнитивные способности человека. Научить машину воспринимать окружающий мир, фокусировать внимание на важном, анализировать данные, делать выводы, коммуницировать с окружающими посредством речи — это все задачи для ИИ-разработчиков и исследователей. Одно из таких направлений, которое начали активно прорабатывать в середине XX века, — компьютерное зрение.
Общая задача суперпонятная: на входе кидаем в технологию изображение, на выходе — получаем данные.
Примеры конкретных задач:
- на входе — фото, на выходе — «собака породы «чихуахуа»
- на входе — последовательность кадров, на выходе — «светофор красный, нужно срочно остановиться»
- на входе — скан документа, на выходе — «ООО “Ромашка”, сумма счета – 500 рублей, оплата – до 1 января»
Примеров продуктовой реализации этой технологии существует много: умные очки, самоходные машины, системы идентификации личности и, конечно, решения для интеллектуальной обработки документов (IDP, Intelligent Document Processing).
А теперь подробнее рассмотрим, какими конкретно ИИ-методами из области компьютерного зрения мы пользуемся.
ML и нейросети (DL) для задач распознавания текста
Для решений по распознаванию и обработке документов ключевой технологией является OCR (Optical Character Recognition).
Раньше OCR распознавал текст по буквам и их штрихам и считался частью ИИ, так как на тот момент это была передовая технология. ИТ-сфера развивалась быстро, и вскоре OCR перестали относить к области ИИ. Это случилось потому, что изменилось понятие искусственного интеллекта: под ним стали понимать не конкретные разработки вроде OCR, а нейросети.
Некоторые до сих пор считают, что OCR — устаревшая технология, которая просто считывает символы с картинок, и ИИ в ней не используется. Что же, у кого-то, возможно, и не используется, но в наших продуктах — еще как:
- Нейросети для обеспечения высокой точности распознавания русского рукописного и языков со сложной письменностью (например, арабского). Про рукописный есть отдельная статья на Хабре.
- ML и DL для классификации элементов на странице с текстом. Распознает быстрее и качественнее за счет того, что к разным элементам применяет разные методы распознавания. Видишь таблицу — распознавай, как таблицу, штрихкод — как штрихкод, иллюстрацию — вообще не распознавай.
- ML для подготовки изображения к OCR. Часто бывает так, что документы попадают на обработку в плохом качестве: с перекосами страниц из-за неудачного сканирования, с плохо читаемым текстом или сложным фоном, как в паспорте. Специальные предобученные с помощью ML модели как раз «готовят» документ для максимально эффективного процесса извлечения данных.
ОCR есть во всех наших решениях, включая продукт для разработчиков ContentReader Engine, который позволяет встраивать его в сторонние приложения.
Для наглядности разберемся на примере паспортов и двух продуктов — редактора ContentReader PDF и IDP-платформы ContentCapture:
- Вы собираетесь в отпуск на море и покупаете билеты (мечта), но вводить вручную данные из паспорта уже нет сил и вообще лень. Решение: закинули фото в ContentReader PDF, нейросети пошуршали на этапе предобработки, потом ИИ раскидал элементы на страничке, выделил фото и текст, распознал текст. На выходе вы забираете файлик txt и копипастом заполняете все нужные поля.
- Вы работаете в банке, и в день у вас по 10 клиентов на открытие счета. Ручной ввод —утомительно, долго, а под недовольным взглядом клиента вообще вылезают ошибки. Отправили паспорт в платформу ContentCapture, где она автоматически считала все данные, включая рукописный текст на странице с пропиской, и сразу отправила их в банковскую систему.
Наша команда разработки постоянно улучшает функциональность, связанную с распознаванием русского рукописного текста. Недавно в ContentCapture появилась функция распознавания рукописного и печатного текста в одном блоке. Например, в новых паспортах прописка написана печатными буквами, тогда как раньше всегда писалась от руки. Теперь это поле одинаково хорошо извлекается из всех паспортов.
NLP для классификации и извлечения нужной информации из документов
NLP (Natural Language Processing, Обработка естественного языка) — еще одна важная технология для обработки документов. Вообще говоря, NLP — очень широкий класс ИИ-технологий, которые умеют работать со смыслом текста. Тут позволю себе вольность и буду говорить про нее только в разрезе компьютерного зрения.
Напомню, что мы говорим про задачу: на входе — изображение, на выходе — данные.
В случае, если после OCR необходимые данные нельзя просто извлечь из текста по формальным признакам, на помощь приходит NLP и (здравый) смысл.
Рассказываю, как это происходит у нас в продуктах:
- NLP для извлечения данных из документа. В этом случае главная фишка NLP для нас — умение доставать информацию из неструктурированного текста. Технология позволяет при поиске необходимых данных опираться на контекст.
- NLP для классификации документов. Благодаря естественному языку появляется возможность определить, к какому типу относится произвольный документ, не опираясь на статистические данные или формальные правила.
- NLP для поиска по архиву документов. С помощью технологий NLP в архиве можно искать данные не только по точному совпадению с запросом, но и по смыслу.
NLP сейчас есть в корпоративных продуктах ContentCapture и Content AI Intelligent Search. Традиционно, примеры:
Пример 1. Вы работаете в компании, которая занимается морской логистикой. В компанию в день приходит несколько десятков договоров от агентов из разных портов на простой судна, погрузку-разгрузку и т.п. И поскольку порты разные, договоры тоже сильно различаются. Вам для отчета клиенту из каждого договора нужно извлечь локацию порта, юр.лицо, даты, стоимость услуг по договору и возможные штрафы. Делать это вручную — рутинная задача, особенно, если договор на 50 страниц. Гораздо проще закинуть его в ContentCapture, где с помощью NLP все эти данные будут извлечены в считанные мгновения.
Пример 2. Однажды к нам обратилась научная библиотека с задачей классификации научных статей. Точно не помню, что там было, но допустим, что статьи были по биологии, математике и литературе. Задача включала оцифровку архива и последующую классификацию статей по разным сегментам. Очевидно, что выделить полный набор слов, который относится к определенной области, сходу сложно. Поэтому для этой задачи использовали классификатор в СontentCapture, который благодаря наличию технологий NLP отлично с этим справился.
Пример 3. Вы дизайнер и не можете вспомнить, где вы сохранили прошлогодние подарочные грамоты, которые готовили в честь дня рождения компании для сотрудников. В поиске в проводнике вы вбиваете слово «Грамота», и вам попадаются совершенно другие документы. Просто потому, что вместо «Грамота» в нужном файле было написано «Диплом». А если вбить слово «Грамота» в Content AI Intelligent Search, то он найдет документы, в которых упоминаются и «дипломы», и «сертификаты», и «похвальные листы». NLP-технологии позволяют за несколько секунд найти нужный документ в информационном пространстве предприятия и не тратить кучу времени на поиски.
Поэтому NLP так важен для обработки документов и идеально ложится в наши задачи о компьютерном зрении.
Кстати, в ContentCapture и в ContentReader Engine есть еще один способ классификации, который использует ИИ: исходя из изображений, которые поступают на вход. Там работает сверточная нейросеть, которая позволяет системе различать изображения и присваивать каждому свой тип.
ИИ для пользователей
ИИ-технологии не только работают «под капотом» наших решений. Они доступны пользователям или администраторам ПО, которые могут самостоятельно обучить модель извлечения данных или классификацию.
Так, недавно мы упростили добавление новых типов документов в IDP-платформу ContentСapture. Раньше пользователям приходилось привлекать к этой задаче наших технических специалистов или интегратора. Теперь они могут самостоятельно обучить модель на пакете из нескольких документов буквально за 5 минут, и система начнет с высокой точностью извлекать данные из нового типа документов.
Что важно: благодаря удобным инструментам модель можно донастраивать и адаптировать, если ИИ где-то работает неидеально.
ИИ-технологии в IDP-решениях позволяют сделать работу пользователей с документами проще и удобнее, а также помогают в автоматизации бизнес-процессов заказчиков, что ведет к сокращению издержек на обработку документов и повышению продуктивности.
Любопытно, что с недавних пор ИИ также приносит другие бонусы организациям. При закупке софта из реестра российского ПО со специальной маркировкой о наличии ИИ компании могут снизить налог на прибыль за счет применения повышенного коэффициента 1,5 к расходам на приобретение ПО.
Также компании имеют право на инвестиционный вычет, который можно применить к расходам на оплату работ по установке, тестированию, адаптации, модификации программ для ЭВМ и баз данных.
IDP-платформа ContentCapture, многофункциональный редактор ContentReader PDF и Content AI Intelligent Search имеют статус программных продуктов, которые относятся к сфере искусственного интеллекта, поэтому наши заказчики теперь могут пользоваться налоговыми льготами.
Если хотите протестировать наши продукты на своих задачах — обращайтесь, организуем демо :)
Вместо заключения
Спасибо всем, кто помогал писать эту статью и отдельная благодарность тем, кто дочитал ее до конца.
Я постаралась максимально просто рассказать о том, какие именно ИИ-механики компьютерного зрения есть в продуктах Content AI. И тут будет две ремарки.
Вспомним цитату основателя Linux Линуса Торвальдса: «Болтовня ничего не стоит. Покажите мне код». Не ИИ в чистом виде придает ценность нашим решениям, а сильная профессиональная команда разработки и грамотно сделанные продукты. Привет коллегам :)
И пока я писала эту статью про компьютерное зрение, в бета-версиях уже успели появиться новые элементы ИИ, а именно цифровые помощники на базе LLM. Они достойны отдельного поста, и поэтому анонсирую в скором времени выход второй части, где мы поговорим про трансформеры, GPT, галлюцинации и т.п.