Скрэйпинг сайтов — супер крутая вещь, которая помогает быстро собрать нужные данные и передать их в дальнейшую переработку. Не все знают это модное слово и не все умеют пользоваться скрэйпингом. В этой статье я расскажу, что это, и научу, как скрэйпить своими руками.
Web Scraping (он же скрэйпинг, он же парсинг) — способ получения массивов данных с различных веб-сайтов путём сканирования сайтов, ссылок и их структуры. Специально написанный алгоритм (бот) ходит по сайтам, ищет необходимые данные и собирает их в базу или .csv таблицу.
Хочу так, но не умею
Теперь, когда всё встало на свои места, мне тоже захотелось поскрэйпить. Инструмент действительно удобный, помогает быстро собрать и проанализировать массивы данных по нужным вам параметрам.
Но тут мы сталкиваемся с проблемой написания кода. Распарсить сайт без знаний программирования практически невозможно. До сегодняшнего дня!
Grepsr — расширение для Google Chrome, которое помогает визуально запрограммировать алгоритм для скрейпинга практически любого сайта.
Для работы с расширением достаточно выбрать нужные элементы на странице, которые будут проанализированы. Затем вы отвечаете на несколько вопросов о выбранных данных. После чего команда сервиса напишет алгоритм под ваши нужды, и предоставит результаты парсинга в удобном виде. Удовольствие стоит от $99 за сайт.