И тут мы приходим ко второй проблеме. Документы далеко не всегда оформляются в едином стиле. Ключевые слова могут то присутствовать, то отсутствовать. Номер акта может быть как со значком, так и без. Все это крайне затрудняет парсинг, не говоря уже о работе с адресами и прочим. Но и это еще не все. Документ может быть многостраничный, при этом некоторые страницы (какой-нибудь счет-фактура или какая-нибудь товарная накладная) могут быть повернуты на произвольный угол. Казалось бы, что стоит их повернуть? Тем более тот же «UiPath» позволяет разрабатывать свои модули посредством C #, импортировать код из Python (пока только 32-битного) или из Visual Basic. Однако и тут проблема. Что бы мы делали, если бы хотели повернуть страницу pdf-файла, используя, скажем, C #? Мы бы взяли любую open-source библиотеку и воспользовались бы готовым решением. И тут стучится в дверь политика лицензирования. И выясняется, что за коммерческое использование все равно придется доплатить. В результате, вам приходится искать методы, как выкрутиться. Потому что написать обработчик pdf с самого нуля — задача, мягко говоря, непростая. Теперь представьте, какие чувства испытывает RPA-разработчик, когда ему заказчик с улыбкой показывает пятистраничный документ с мелким шрифтом, кучей таблиц и несколькими повернутыми страницами.
Статья особенно хороша итоговым абзацем и соответствующей гифкой. Неэффективные процессы - мощное оружие против роботов! Если у вас "продвинутая" компания с неэффективными процессами, то вы защищены от всяких там кибер роботов.