Руководство Semalt по расширению скребка для хром

Чтобы любой бизнес выживал и в конечном итоге развивался, необходимо опережать своих конкурентов и подвергаться различным рискам. Принятие решений на основе аналитических данных - верный способ забыть об этих проблемах. Такие данные могут быть получены путем утилизации данных. Вот тут-то и появляется простое расширение для скребка для Chrome: оно не только облегчит процесс сбора данных, но и позволит без проблем работать на ходу без сложных настроек.

Как использовать скребок

    1. Первое, что вам нужно сделать, это установить расширение, поэтому зайдите в интернет-магазин Chrome, найдите «scraper» и нажмите «Добавить в Chrome».

    2. Перейдите на веб-сайт, с которого вы хотите очистить данные , отметьте интересующую вас запись, выделив ее. Щелкните правой кнопкой мыши по нему и выберите «очистить похожие» в всплывающем меню.

    3. При этом откроется отдельное окно консоли скребка. Здесь вы увидите список очищенных данных .

    4. Чтобы сохранить содержимое, нажмите «Сохранить в Google документах», это автоматически экспортирует данные в электронную таблицу Google.

Расширенный соскоб

Если вы планируете собрать больше данных, вы можете использовать продвинутый подход. Обратите внимание, что вам будет намного легче работать с инструментом, если вы немного разбираетесь в HTML. Предположим, вы хотели получить данные из источника, у которого есть архив, основанный на данных временных рядов. В таком случае, если вы попробуете метод, описанный выше, вы получите искаженные данные.

Чтобы решить эту проблему, вы можете использовать язык запросов HTML и XML, известный как XPath. Что оно делает? XPath распознает данные, относящиеся к различным элементам, содержащимся в каждом выделении. Ниже приведено руководство о том, как это сделать:

1. Перейдите к консоли Scraper, в верхнем левом углу вы должны увидеть кнопку «XPath», нажмите на нее и продолжите собирать начальную таблицу.

2. Вам нужно написать XPath для правильного элемента. Текущий XPath, который включает в себя всю информацию, будет отображаться в формате, подобном этому «// div [3] / div [3] / div [2] / div». Элементы <div> будут распознаваться компьютером в документе HTML.

3. Чтобы разделить распознанные данные, вы должны использовать столбцы Scraper. Для этого вам нужно искать различные типы информации, которую вы имеете в наличии. В зависимости от данных, которые вы копируете, у вас могут быть заголовки. Эти заголовки присутствуют рядом с каждым набором данных. Они сопровождаются тегом, в данном случае тегом <b>.

4. Используя элемент inspect найдите и добавьте тег <b> в свой XPath. Теперь вы можете пометить этот первый столбец как «столбец заголовка», так как в нем будут перечислены заголовки. Продолжайте создавать различные XPath для каждого столбца, который вам нужен.

5. Нажмите на блокнот, и расширение автоматически соберет данные и распределит их по разным столбцам, которые вы установили.