История разработчика. Как мы выбирали сервис для распознавания документов
При разработке и развитии проекта Mertago одной из самых трудоемких задач, с которой мы столкнулись, стала обработка полученных заказов и предложений от поставщиков для ввода этих данных в систему
Чтобы упростить этот процесс, мы уже используем функции автозаполнения, автоматического поиска и добавления товаров из прайс-листов или истории предыдущих сделок. Но этого функционала недостаточно, так как специалистам часто приходится вносить данные из документов, которых еще нет в системе и которые невозможно просто скопировать из документа для переноса в систему
Эта задача особенно актуальна на первых этапах внедрения автоматизации в компании
Не секрет, что для решения подобных задач используют программное обеспечение OCR, которое позволяет переводить изображения с отсканированных документов в редактируемый текст. Мы решили найти подходящее решение для интеграции с Mertago
Существующие на рынке решения либо специализированы на типовых текстовых документах (например, договоры или паспорта) и, как правило, рассчитаны на крупные компании, либо решение сделано для внесения бухгалтерской документации и ограничено этим функционалом
Проанализировав обратную связь от наших пользователей, мы сформулировали ряд требований, которые необходимо соблюсти при выборе OCR-системы
1. Работа с нестандартными документами. Система должна распознавать не только типовые документы (счета, накладные), но и любые другие, содержащие информацию о товарах и ценах
2. Полная интеграция в интерфейс Mertago. Процесс отправки документа на распознавание и получения результата должен быть максимально простым и не требовать от пользователя дополнительных авторизаций, переходов в новый интерфейс и т. п.
3. Доступность. Для компаний с небольшим количеством документов (транзакций) на распознавание цена должна быть приемлемой. Крупный бизнес с 50 000 отсканированных документов в год может позволить себе дорогое специализированное ПО. Однако у малого бизнеса нет таких объемов документов и таких бюджетов
Как отметил один из наших клиентов: «Если станет совсем плохо, за 40 000 рублей в месяц я найму удаленного сотрудника без опыта, который будет обрабатывать всю документацию. Но сейчас у меня нет для этого 40 тысяч и количество документов такое, что я могу распределить их между специалистами, поэтому каждый вносит необходимые данные вручную. Пока мы теряем время, а иногда проседаем по срокам, но в итоге справляемся»
То есть итоговое решение должно быть значительно дешевле нового сотрудника и при этом позволять справляться с текущим количеством задач
4. Возможность установки ПО на сервер заказчика (для обеспечения конфиденциальности). Это требование, с одной стороны, расширяет ограничение по стоимости, т. к. используется только с выделенным сервером и большим бюджетом на проект, а с другой - ограничивает выбор и не позволяет использовать решения, которые работают только в формате SaaS
5. Отечественное ПО. Ну и финальное, пятое условие - если ПО платное, то оно должно быть отечественным. Тут вступает в силу объективная реальность: если сервис зарубежный, то завтра его может уже не быть на рынке.
В итоге, проведя дополнительные тесты и отобрав лучшие решения по отзывам и результатам, мы получили такую картину:
Smart Engines и Content AI, несмотря на результаты распознавания, были отсеяны из-за отсутствия доступного по стоимости решения
У Content AI есть варианты массовых офисных продуктов, которые теоретически можно использовать индивидуально при решении наших задач, но серверное решение все-таки дорогое, и его применение слишком рискованно для первых этапов разработки
Ценовая политика Smart Engines явно не рассчитана на малый и средний бизнес и сделала для нас невозможным и, в принципе, ненужным дальнейшее тестирование
Сервис Entera показал хорошие результаты, и если бы мы работали только с первичной документацией, то выбрали бы его, несмотря на отсутствие возможности установки на сервер заказчика
IlovePDF - быстрый инструмент для конвертации PDF в Excel. Мы оставили доступ к нему по ссылке в качестве бесплатной альтернативы для тех случаев, когда пользователю будет достаточно такого варианта
В итоге мы выбрали EasyDoc от ITFB Group в качестве основной системы для автоматизации распознавания документов по нескольким причинам:
- ITFB EasyDoc справляется с распознаванием любых документов, а не только типовых, что для нас было приоритетом
- В процессе итерации получилось реализовать вариант, когда пользователю не нужно ничего настраивать - процесс распознавания максимально автоматизирован
- Отличная техподдержка, разработчики оперативно отвечают на вопросы и постоянно совершенствуют свой продукт
- Адекватная стоимость решения, которая позволяет применять его для работы с малым бизнесом
Сейчас мы активно сотрудничаем с ITFB Group и уверены, что в скором времени на российском рынке появится продукт, который позволит небольшим компаниям легко и быстро автоматизировать оцифровку документов, а пользователям Mertago станет еще проще автоматизировать свои процессы закупок