Компании внедряют машинное обучение для решения широкого спектра задач, направленных на оптимизацию документооборота. Примером такой задачи является извлечение именованных сущностей в документах — создание структурированных данных на основе технологии обработки естественного языка (Natural language processing). Это важный этап анализа данных, который помогает упорядочить информацию и автоматизировать ряд задач. Сами сущности – это объекты определенного типа, чаще всего составные, например, названия организаций, наименования контрагентов, сроки, денежные единицы, условия контракта и другая информация, которая имеет ценность для компании.Рассказываем как один инструмент может решить сразу несколько бизнес-задач: от автозаполнения карточек документов до проверки договоров на риски.фото: shutterstock1. Автозаполнение карточки документаЧаще всего извлеченные сущности используются для автоматического заполнения карточки документа. В зависимости от потребностей заказчика, в нее могут быть добавлены как стандартные атрибуты (наименование контрагента, автор, даты), так и специфичные условия (термины, сроки, нормативные ссылки и пр). Эта технология позволяет автоматизировать ручной труд сотрудников и в значительной степени повысить производительность компании. 2. Создание карточки контрагентаС помощью технологии извлечения сущностей можно автоматизировать процесс создания карточки контрагента. В данном случае система сама «подтянет» всю информацию о юридическом лице в профиль организации и даст ссылки на документы, в которых упоминается название компании. Это не только обеспечит быстрый доступ к агрегированных данным, но и позволит получить аналитику по конкретному контрагенту. К примеру, даст возможность посмотреть, какие договоры были заключены, на какие суммы, какие типовые условия прописывались в контракте, каков оказался процент расторжения сделок и другие параметры.3. Аннотирование документаАннотирование документа – это выявление ключевых элементов и последующее составление краткого конспекта текста. Технология часто используется при работе с объемными материалами – аннотация позволяет значительно сократить время сотрудников на ознакомление с внутренним содержанием документа. Алгоритмы сами анализируют текст – выделяют ключевые параметры: предмет договора, контрагента, сроки, цену и другие сущности, создавая из многостраничного файла краткую аннотацию. На основании такого резюме специалист может быстрее принять решение о дальнейшей работе с контрактом – направить его на рассмотрение эксперту или изучить самостоятельно. 4. Поиск по ключевым словамНа основании извлеченных сущностей из текста документа можно настроить поисковые фильтры. Например, сортировать поисковую выдачу внутренней базы данных по контрагентам, датам, наличию НДС и другим параметрам. Это значительно сократит время сотрудников на поиск информации.5. Контроль сроковИзвлечение сроков исполнения обязательств в договорах поможет избежать просрочек и штрафов. Данные по срокам фиксируются в системе, которая может быть интегрирована с рабочим календарем. Например, сотруднику всегда доступна информация, по каким работам в ближайшее время наступает дедлайн. Результаты аналитики могут быть визуализированы и выгружены в отчеты.На базе извлеченной информации может работать система уведомлений. Программа будет заранее предупреждать сотрудников о скором закрытии этапа работ, предстоящих платежах, истечении сроков, необходимости продления договора или перенесения в архив. 6. Определение типа документаИсходя из извлеченных сущностей, программа может определять тип входящего документа. Для этого необходимо выделить набор сущностей для каждой категории. Если в тексте будут найдены все данные из заданного перечня – программа автоматически отнесет данный файл к нужному типу. Так, по извлеченным предмету, сумме и контрагенту можно определить вид договора и отнести его к типовому или нетиповому для компании.7. Маршрутизация документа сотруднику или отделуВ зависимости от излеченных сущностей, можно настроить автоматическую отправку входящего документа ответственному сотруднику или отделу. Как и в случае с определением типа документа, необходимо вычленить наборы сущностей и задать готовый маршрут движения. Так, лицензионные соглашения на небольшую сумму могут сразу поступать ответственному сотруднику юридического отдела, а трудовые договоры — в HR-департамент. Замена ручной регистрации и пересылки документа конкретному исполнителю на автоматическую маршрутизацию сократит время и ресурсы на согласование документов.8. Проверка договоров на риски/проведение аудитаИз текста документа можно извлекать не только стандартные сущности (даты и сроки и т.д.), но и отдельные юридические формулировки, на которые важно обратить внимание перед заключением договора. К примеру, те условия, где ответственность компании не ограничена.Если в организации приняты регламенты или есть правила для анализа входящих документов, то можно автоматизировать процесс проверки договоров на риски. В данном случае программа сама выделит нежелательные формулировки, а встроенные рекомендации помогут сотруднику внести изменения в текст. Это позволит сократить издержки на работу с соглашениями, минимизировать ошибки персонала и правовые риски компании.9. Выявление отклонений от стандартных формулировокИзвлекаемые сущности можно сравнивать с утвержденными в организации формами или отдельными положениями законов – к примеру, определять, насколько пункт договора про интеллектуальную собственность соответствует внутренним стандартам компании или нормам ГК РФ. В масштабах организации выявление отклонений от утвержденных ранее формулировок значительно упростит и повысит эффективность процедуры compliance. 10. Унификация терминологииСущностями могут быть термины и их определения. На базе извлеченных терминов с определениями создается корпоративный глоссарий. Глоссарий содержит термин, общепринятое значение и все варианты его определений. Сотрудники могут увидеть отличия в трактовании терминов в разных документах, и, при необходимости, привести все определения к единому формату.11. Выявление связей между документамиИзвлеченные сущности могут стать основой для построения связей между документами. Вычленение из текста прямых ссылок поможет собрать все связанные документы — предыдущие версии, дополнительные соглашения, вышестоящие регламенты.Связи между документами обеспечат актуальность базы данных компании — при внесении изменений в тот или иной файл сотрудник увидит связанные документы и сразу поймет, где еще необходимо обновить или дополнить информацию. Если документ содержит внешние ссылки на законы или ГОСТы — сможет оперативно проверить их действительность.12. Подбор шаблонов и создание базы знанийНа основе извлеченных сущностей программа может предлагать шаблоны документов. Например, если во входящем договоре найден такой атрибут, как “конфиденциальность информации”, алгоритмы предложат использовать шаблон соглашения о неразглашении. В крупных организациях технология извлечения сущностей применяется для создания корпоративных баз знаний и wiki-систем. Это оптимизирует работу с обращениями и запросами сотрудников — программа самостоятельно подбирает шаблоны ответов и документы в зависимости от найденных в тексте ключевых слов. ИтогИзвлечение сущностей из текста – полезный инструмент для работы с документацией компании. Он позволяет в значительной степени оптимизировать работу с договорами и внутренними актами, сократить время на обработку запросов, увеличить скорость согласования документов. Как использовать извлеченные сущности – зависит от задач компании и тех процессов, которые вы намерены оптимизировать. Это может быть как базовое решение для автозаполнения карточки документа и маршрутизации, так и основа для содержательного анализа документов на риски.