PDF OCR: распознавание текста ПДФ
PDF — удобный способ сохранить структуру документа, но что делать, если нужно преобразовать PDF в текстовый формат или отредактировать документ, состоящий из отсканированных изображений?
В своей работе я часто сталкиваюсь с книгами и PDF документами без текстового слоя (все страницы состоят из изображений) и внушительного размера от 100 МБ и более. Многие популярные онлайн сервисы с этой задачей не справляются, как правило из-за большого размера файла или же при распознавании текста сильно нарушается структура документа.
Я решил создать онлайн сервис для распознавания PDF. С помощью сервиса можно перевести отсканированный изображения в текстовую версию PDF или в редактируемый документ Word (DOCX) при этом структура документа сохраняется очень близко к оригиналу.
Пример 1: отсканированная книга из PDF в DOCX
Также можно сохранить очень сложную структуру документа близкой к оригиналу.
Пример 2: сохранение сложной структуры PDF и перевод текста
Попробовать сервис можно вот тут.