Обучение программированию онлайн

Лучшая библиотека для веб-скрейпинга

Я хотел бы получить данные с различных веб-страниц, таких как адреса ресторанов или даты различных событий для данного места и так далее. Какую лучшую библиотеку я могу использовать для извлечения этих данных из заданного набора сайтов? ...

13

11

Как написать этот кроулер на php?

Мне нужно создать php скрипт . Идея очень проста: Когда я отправляю ссылку блогпоста на этот php скрипт, то веб-страница обходит и первое изображение с титульной страницей сохраняется на моем сервере. Какую функцию PHP я должен использовать для этого искателя ?...

4

2

php web-crawler curl html-parsing

Отправка "User-agent" с помощью библиотеки запросов в Python

Я хочу, чтобы отправить значение "User-agent" при запросе веб-страницы с помощью Python запросы. Я не уверен, если это нормально, чтобы отправить это как часть заголовка, как в коде ниже: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_...

2

163

python web-crawler python-requests

В чем разница между веб-обходом и веб-выскабливанием? [дубликат]

этот вопрос уже есть ответ здесь: гусеничный против скребок 4 ответы есть ли разница между ползанием и веб-выскабливанием? Если есть разница, какой лучший метод использовать для сбора некоторых веб-данных для предост...

6

75

web-crawler web-scraping search-engine

Как найти все ссылки и страницы на сайте

можно ли найти все страницы и ссылки на любой сайт? Я хотел бы ввести URL-адрес и создать дерево каталогов всех ссылок с этого сайта? Я посмотрел на HTTrack, но это загружает весь сайт, и мне просто нужно дерево каталогов....

5

74

directory web-crawler

Получить список URL-адресов с сайта [закрыто]

Я развертываю сайт замены для клиента, но они не хотят, чтобы все их старые страницы заканчивались 404s. сохранение старой структуры URL было невозможно, потому что это было отвратительно. поэтому я пишу обработчик 404, который должен искать старую запрашиваемую страницу и делать постоянное перенаправление н...

8

73

web-crawler

Как передать пользовательский аргумент в scrapy spider

Я пытаюсь передать определяемый пользователем аргумент, чтобы паука в scrapy это. Может ли кто-нибудь предложить, как это сделать? Я читал о параметре -a где-то, но понятия не имею, как использовать его....

4

70

web-crawler scrapy

Проектирование веб-обходчика

Я столкнулся с вопросом интервью "если бы вы разрабатывали веб-Искатель, как бы вы избежали попадания в бесконечные циклы? - и я пытаюсь ответить на него. Как все это начинается с самого начала. Скажем, Google начал с некоторых страниц концентратора, говорят сотни из них (как эти страницы концентратора были ...

8

64

web-crawler data-structures search-engine google-search large-data-volumes

Как сделать простой искатель на PHP?

У меня есть веб-страница с кучей ссылок. Я хочу написать скрипт, который будет сбрасывать все данные, содержащиеся в этих ссылках, в локальный файл. кто-нибудь делал это с PHP? Общие рекомендации и готы были бы достаточны в качестве ответа....

15

62

php web-crawler

Паук веб-сайт и возвращать только URL-адреса

Я ищу способ псевдо-паук веб-сайт. Ключ в том, что я на самом деле не хочу контент, а скорее простой список URI. Я могу достаточно близко подойти к этой идее с Wget С помощью --spider вариант, но когда трубопровод, что выход через grep, Я не могу найти правильную магию, чтобы заставить ее работать: wget --sp...

4

51

turing-complete grep wget web-crawler