Многие пользователи, которые работают с электронными документами, сталкиваются с проблемой извлечения данных из одного формата в другой. Исходные данные могут быть в виде word, .rtf, .pdf или даже .jpeg, но вам нужно их обработать в excel или .csv. И если из большинства форматов извлечь данные достаточно легко, то все надежды рушатся перед таблицами в .pdf. Так как же извлечь таблицу из .pdf файла?
Для большего усложнения задачи я взял документ на латышском с разнообразными графиками и таблицами. А решение оказалось очень простым — PDFTables.
Всё, что от вас требуется — загрузить свой .pdf файл в сервис и он тут же покажет предварительный результат с предложением сохранить его в Excel, .csv или .xml:
Несмотря на такую очевидную лёгкость, результат экспорта очень точен. Вот скриншот оригинального файла в формате .pdf:
А вот результат конвертации:
PDFTables позволяет бесплатно конвертировать до 50 страниц при регистрации или 25 страниц без регистрации. Затем стоимость конвертации составляет от $15 за 500 страниц.
Если вам интересно самостоятельно сравнить результаты, то оба моих файла можно скачать здесь.