История разработчика. Как мы выбирали сервис для распознавания документов

В скором времени на российском рынке появится продукт, который позволит небольшим компаниям легко и быстро автоматизировать оцифровку документов

При разработке и развитии проекта Mertago одной из самых трудоемких задач, с которой мы столкнулись, стала обработка полученных заказов и предложений от поставщиков для ввода этих данных в систему

Чтобы упростить этот процесс, мы уже используем функции автозаполнения, автоматического поиска и добавления товаров из прайс-листов или истории предыдущих сделок. Но этого функционала недостаточно, так как специалистам часто приходится вносить данные из документов, которых еще нет в системе и которые невозможно просто скопировать из документа для переноса в систему

Эта задача особенно актуальна на первых этапах внедрения автоматизации в компании

Не секрет, что для решения подобных задач используют программное обеспечение OCR, которое позволяет переводить изображения с отсканированных документов в редактируемый текст. Мы решили найти подходящее решение для интеграции с Mertago

Существующие на рынке решения либо специализированы на типовых текстовых документах (например, договоры или паспорта) и, как правило, рассчитаны на крупные компании, либо решение сделано для внесения бухгалтерской документации и ограничено этим функционалом

Проанализировав обратную связь от наших пользователей, мы сформулировали ряд требований, которые необходимо соблюсти при выборе OCR-системы

1. Работа с нестандартными документами. Система должна распознавать не только типовые документы (счета, накладные), но и любые другие, содержащие информацию о товарах и ценах

2. Полная интеграция в интерфейс Mertago. Процесс отправки документа на распознавание и получения результата должен быть максимально простым и не требовать от пользователя дополнительных авторизаций, переходов в новый интерфейс и т. п.

3. Доступность. Для компаний с небольшим количеством документов (транзакций) на распознавание цена должна быть приемлемой. Крупный бизнес с 50 000 отсканированных документов в год может позволить себе дорогое специализированное ПО. Однако у малого бизнеса нет таких объемов документов и таких бюджетов

Как отметил один из наших клиентов: «Если станет совсем плохо, за 40 000 рублей в месяц я найму удаленного сотрудника без опыта, который будет обрабатывать всю документацию. Но сейчас у меня нет для этого 40 тысяч и количество документов такое, что я могу распределить их между специалистами, поэтому каждый вносит необходимые данные вручную. Пока мы теряем время, а иногда проседаем по срокам, но в итоге справляемся»

То есть итоговое решение должно быть значительно дешевле нового сотрудника и при этом позволять справляться с текущим количеством задач

4. Возможность установки ПО на сервер заказчика (для обеспечения конфиденциальности). Это требование, с одной стороны, расширяет ограничение по стоимости, т. к. используется только с выделенным сервером и большим бюджетом на проект, а с другой - ограничивает выбор и не позволяет использовать решения, которые работают только в формате SaaS

5. Отечественное ПО. Ну и финальное, пятое условие - если ПО платное, то оно должно быть отечественным. Тут вступает в силу объективная реальность: если сервис зарубежный, то завтра его может уже не быть на рынке.

В итоге, проведя дополнительные тесты и отобрав лучшие решения по отзывам и результатам, мы получили такую картину:

История разработчика. Как мы выбирали сервис для распознавания документов

Smart Engines и Content AI, несмотря на результаты распознавания, были отсеяны из-за отсутствия доступного по стоимости решения

У Content AI есть варианты массовых офисных продуктов, которые теоретически можно использовать индивидуально при решении наших задач, но серверное решение все-таки дорогое, и его применение слишком рискованно для первых этапов разработки

Ценовая политика Smart Engines явно не рассчитана на малый и средний бизнес и сделала для нас невозможным и, в принципе, ненужным дальнейшее тестирование

Сервис Entera показал хорошие результаты, и если бы мы работали только с первичной документацией, то выбрали бы его, несмотря на отсутствие возможности установки на сервер заказчика

IlovePDF - быстрый инструмент для конвертации PDF в Excel. Мы оставили доступ к нему по ссылке в качестве бесплатной альтернативы для тех случаев, когда пользователю будет достаточно такого варианта

В итоге мы выбрали EasyDoc от ITFB Group в качестве основной системы для автоматизации распознавания документов по нескольким причинам:

ITFB EasyDoc справляется с распознаванием любых документов, а не только типовых, что для нас было приоритетом
В процессе итерации получилось реализовать вариант, когда пользователю не нужно ничего настраивать - процесс распознавания максимально автоматизирован
Отличная техподдержка, разработчики оперативно отвечают на вопросы и постоянно совершенствуют свой продукт
Адекватная стоимость решения, которая позволяет применять его для работы с малым бизнесом

Сейчас мы активно сотрудничаем с ITFB Group и уверены, что в скором времени на российском рынке появится продукт, который позволит небольшим компаниям легко и быстро автоматизировать оцифровку документов, а пользователям Mertago станет еще проще автоматизировать свои процессы закупок