В чем разница между веб-обходом и веб-выскабливанием? [дубликат]
этот вопрос уже есть ответ здесь:
- гусеничный против скребок 4 ответы
есть ли разница между ползанием и веб-выскабливанием?
Если есть разница, какой лучший метод использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в настраиваемом поиске двигатель?
6 ответов:
обход будет по существу тем, что Google, Yahoo, MSN и т. д. делаем, ищем любую информацию. Выскабливание обычно нацелено на определенные веб-сайты, для конкретных данных, например для сравнения цен, поэтому они кодируются совершенно по-разному.
обычно скребок будет заказан на веб-сайты, которые он должен соскабливать, и будет делать то ,что (хороший) искатель не будет делать, т. е.:
- не обращайте внимания на роботов.txt
- идентифицируйте себя как a браузер
- заполнять формы с данными
- выполнить Javascript (если требуется действуйте как пользователь)
Да, они разные. На практике вам может потребоваться использовать оба.
(Я должен прыгать, потому что до сих пор другие ответы не доходят до сути. Они используют примеры, но не делают различия ясно. Согласен, они с 2010 года!)
веб-выскабливание, чтобы использовать минимальное определение, это процесс обработки веб-документа и извлечения информации из него. Вы можете сделать веб-выскабливание без выполнения веб-обхода.
веб-ползание, чтобы использовать минимальный определению, представляет собой процесс последовательного поиска и извлечения веб-ссылок, начиная от список семян URL-адреса. Строго говоря, сделать веб-ползет, нужно делать какой-то степени веб-выскабливание (для извлечения URL-адреса.)
чтобы прояснить некоторые понятия, упомянутые в других ответах:
robots.txt
предназначен для применения к любому автоматизированному процессу, который обращается к веб-странице. Так что это относится к обоим ползуны и скребки."правильные" гусеницы и скребки, оба, должны точно идентифицировать себя.
ссылки:
AFAIK Web Crawling - это то, что делает Google - он обходит веб-сайт, просматривая ссылки и создавая базу данных макета этого сайта и сайтов, на которые он ссылается
веб-выскабливание будет прогаматическим анализом веб-страницы для загрузки некоторых данных с нее, например, загрузка BBC weather и разрыв (соскабливание) погоды forcast с нее и размещение ее в другом месте или использование ее в другой программе.
есть принципиальная разница между этими двумя. Для тех, кто хочет копать глубже, я предлагаю вам прочитать эту - web scraper, Web Crawler
этот пост идет в деталях. Хорошее резюме находится в этой диаграмме из статьи:
мы сканируем сайты, чтобы иметь широкую перспективу, как сайт структурирован, каковы связи между страницами, чтобы оценить, сколько времени нам нужно, чтобы посетить все страницы, которые нас интересуют. Выскабливание часто сложнее реализовать, но это суть извлечения данных. Давайте подумаем о выскабливании, как о покрытии сайта листом бумаги с вырезанными прямоугольниками. Теперь мы можем видеть только то, что нам нужно, полностью игнорируя части веб-сайта, которые являются общими для всех страниц (например, навигация, нижний колонтитул, объявления), или посторонние сведения в виде комментариев или панировочных сухарей. Подробнее о различиях между ползанием и слом вы найдете здесь:https://tarantoola.io/web-scraping-vs-web-crawling/