Без сна и отдыха: нейросеть, которая за секунду сортирует и обрабатывает документы
Частая проблема компаний — большой поток входящих документов, которые сотрудники вынуждены обрабатывать вручную.
Чтобы избавить офис от монотонной работы и ускорить обслуживание клиента, мы в Dbrain разработали решение на основе машинного обучения. Это история одного классификатора, который научился сортировать документы и не только.
Как устроена работа офиса
Раньше клиент шел в офис компании, чтобы предоставить документы. Теперь можно отправить заявку через сайт, прикрепив требуемые файлы. Это упростило жизнь клиенту, но не компании — входящие документы по-прежнему обрабатываются вручную.
Каждый день сотрудники офиса загружают стопки бумаг в поточный сканер, проверяют наличие файлов, нужных для заявки, сортируют их и перепечатывают содержание во внутреннюю систему. Это медленный процесс — клиент вынужден ждать, пока заявка обработается, а сотрудник тонет в рутинной работе.
Как мы придумали сортировщика документов
Итак, проблема налицо: квалифицированные сотрудники банков тратят часы на обработку входящей документации. Мы решили оптимизировать этот процесса с помощью машинного обучения (куда же без него?).
Для начала мы создали простой классификатор. Идея такая: человек загружает бумаги в сканер, он делает из них PDF, затем файлы поступают в нашу систему. Тут начинается работа нейросети: она определяет документы по списку (паспорт, страховка, ИНН), а ненужное отправляет в отдельную папку.
Как нейросеть понимает, какой перед ней документ? Мы скормили ей много данных для обучения: поработав с тысячами паспортов, она выделила для себя отличительные черты документа и теперь ориентируется по ним. Увидев паспорт клиента, нейросеть классифицирует его с точностью до 99,97%. Мы решили задачу — свели участие человека к минимуму. Но это еще не все.
С какими сложностями мы столкнулись
Часто пользователь присылает перевернутые изображения, фотографии с искаженной перспективой, и сотруднику офиса приходится подгонять файлы под нужный формат (и это помимо сортировки!). Стало понятно, что базовых функций классификатора недостаточно, чтобы разгрузить офис, поэтому мы приступили к апгрейду.
Классификатор — 2.0
Сначала мы отправили нейросеть на дополнительное обучение: это необходимо, чтобы помимо паспортов она научилась работать с более редкими документами, которые нужны компании. Мы расширили датасет, и теперь распознавание распространяется на 40 типов: ОГРН, договоры, доверенности и другие многостраничные документы.
Забавный факт: пользователи часто присылают файлы, которые не нужны компании. Например, селфи, обрывки бумаг и фотографии котов (а кто не хочет похвастаться пушистым красавчиком). Такие данные тоже нужны — так классификатор лучше распознает брак.
Затем мы научили нейросеть переворачивать документы прямо в процессе обработки, чтобы это не приходилось делать человеку. И заодно — исправлять перспективное искажение там, где это необходимо.
Сортировка документов — больше не проблема
Благодаря классификатору у сотрудников появилось время на интересные задачи. Офис больше не тонет в бумагах, проверяя одни и те же документы. Теперь это делают специально обученные нейросети: начав с простой задачи по сортировке, мы расширили их возможности. И это не конец — в работе банков и других компаний с большим документооборотом осталось еще множество процессов, которые можно улучшить с помощью ИИ. Об этом расскажем в следующий раз!
Мы не только создаем нейросети, но и рассказываем о важных событиях из мира ИИ Telegram-канале.