Обработка документов (или парсинг документов) — это удобный способ извлечения информации из документов различных форматов, таких как PDF, Word и многие другие, с последующей структуризацией данных. Для этого можно использовать сервисы или приложения, которые с помощью передовых технологий (например, OCR (оптическое распознавание символов) и NER (распознавание именованных сущностей)) будут выполнять всесторонний анализ текстового содержимого ваших документов.
Либо можно довериться библиотекам с открытым исходным кодом, если вы шарите за опенсурс.
Grobid
Подходит для извлечения и разбора библиографической информации из PDF-документов. Как правило, библиотека заточена под научные публикации и академические работы.
Здесь используется ряд моделей машинного обучения для анализа логической структуры документов, выявления метаданных, ссылок и других важных деталей и вывода информации в стандартные форматы, такие как TEI или XML.
Camelot
Библиотека Python, которая заточена под извлечение таблиц из PDF-файлов. Здесь используется библиотека Tabula, предоставляется удобный API для автоматизации извлечения данных и предлагается несколько форматов на выбор для вывода информации.
deepdoctection
Это тоже библиотека Python, которая с помощью моделей глубокого обучения помогает выполнять различные парсинговые действия с документами.
Источник: https://www.edenai.co/