Когда вам приходят сотни различных документов, совсем не хочется сидеть и вручную разбирать их содержимое для дальнейшей обработки. В этом случае на помощь приходят парсеры файлов, которые могут самостоятельно выявить полезное содержимое и разложить его в таблички в нужном вам формате.
Docparser
С помощью этого сервиса вы сможете извлекать данные из Word, PDF и изображений. А благодаря интеграции результат можно отправить в Excel, Google Таблицы и сотни других сервисов и приложений.
Для начала работы с Docparser требуется пройти простую регистрацию, после чего вы сможете загружать файлы для распознавания. Сам сервис предлагает создавать собственные шаблоны для парсинга или выбирать из пары десятков готовых. Например, можно выбрать распознавание счетов, списков заказов и прочее.
Из других фишек стоит выделить версионирование файлов и поддержку REST API.
В моём случае распознавание даже на английском языке было очень низкого качества.
Есть бесплатный тариф. Платные — от $5.
Parseur
Этот сервис вам зайдёт, если вы хотите автоматически распознавать файлы из почтового ящика. Хотя всегда можно загрузить файл вручную и обработать его.
Для автоматизации распознавания нужно настроить пересылку писем с файлами на почтовый адрес Parseur. А в сервисе, в свою очередь, настроить подходящие под ваши задачи шаблоны.
На входе принимаются практически любые форматы, а результат можно отправить в различные онлайн-сервисы. Поддерживается русский язык.
Есть бесплатный тариф. Платные — от $39 в месяц.
Extracta.ai
Как и в остальных сервисах, для распознавания текста требуется выбрать подходящий парсер. Здесь их всего девять, среди которых есть счета, визитки и резюме. Но можно создавать свои собственные шаблоны.
Круто, что при настройке парсера можно указать, какие языки используются в документе (есть русский), а также выбрать, есть ли таблицы, чекбоксы или рукописный текст. Правда, из-за этого придётся повозиться с настройкой полей, что немного замедляет процесс, особенно при первом использовании сервиса.
Есть бесплатный тариф. Платные — от $19.
Если вы ищете максимально простой с точки зрения настройки парсер, то я бы выбрал Parseur. Вы можете буквально протыкать все параметры не глядя и получить на выходе приличный результат. Правда, стоит учесть, что всё же сервис больше предназначен для распознавания файлов из писем, чем из ручной загрузки.