Как извлечь таблицы из .pdf файла

Константин Докучаев
Константин Докучаев
Как извлечь таблицы из .pdf файла
Capital

Многие пользователи, которые работают с электронными документами, сталкиваются с проблемой извлечения данных из одного формата в другой. Исходные данные могут быть в виде word, .rtf, .pdf или даже .jpeg, но вам нужно их обработать в excel или .csv. И если из большинства форматов извлечь данные достаточно легко, то все надежды рушатся перед таблицами в .pdf. Так как же извлечь таблицу из .pdf файла?

Для большего усложнения задачи я взял документ на латышском с разнообразными графиками и таблицами. А решение оказалось очень простым — PDFTables.

Всё, что от вас требуется — загрузить свой .pdf файл в сервис и он тут же покажет предварительный результат с предложением сохранить его в Excel, .csv или .xml:

Привью конвертации

Привью конвертации

Несмотря на такую очевидную лёгкость, результат экспорта очень точен. Вот скриншот оригинального файла в формате .pdf:

Оригинал файла в .pdf

Оригинал файла в .pdf

А вот результат конвертации:

Результат конвертации

Результат конвертации

PDFTables позволяет бесплатно конвертировать до 50 страниц при регистрации или 25 страниц без регистрации. Затем стоимость конвертации составляет от $15 за 500 страниц.

Если вам интересно самостоятельно сравнить результаты, то оба моих файла можно скачать здесь.

Попробовать PDFTables.



Great! Next, complete checkout for full access to All-In-One Person
Welcome back! You've successfully signed in
You've successfully subscribed to All-In-One Person
Success! Your account is fully activated, you now have access to all content
Success! Your billing info has been updated
Your billing was not updated