Как, возможно, вы уже знаете не все таблицы в итоге оказываются в файлах табличных редакторов. Бывают таблицы в PDF-документах, изображениях да и чёрт его знает каких ещё форматах.
Извлечь такие таблицы в правильный формат можно с помощью руки и времени, а можно с помощью специальных сервисов. К примеру, Nanonets Table Extractor.
На самом деле сервис создан для извлечения различных структурированных данных, что сразу понятно после авторизации. Вам предложено создать собственный извлекатор данных или воспользоваться одним из готовых для счетов, инвойсов, водительских удостоверений США, паспортов и таблиц. В нашем случае выбираем последний вариант.
Правда, на следующем шаге мне почему-то пришлось ещё раз выбрать извлекатор. Зато после это открылся мастер загрузки файлов. Вы можете загрузить файл со своей устройства, из облачного сервиса или по почте.
Для усложнения процесса я выбрал фотографию со смартфона и изображение таблицы квадратов натуральных чисел. После загрузки Nanonets Table Extractor автоматически производит распознавание, которое можно проконтролировать в отдельном мастере.
Либо можно сразу скачать результат в xml, xlsx или csv форматах. Ниже вы можете ознакомиться со скриншотами оригинальных файлов и извлечённых таблиц.
На бесплатном тарифе пользователю доступно распознавание ста файлов в месяц. Платный тариф рассчитан не на нас с вами, потому что стоит от $499 в месяц.