web-crawler

Я хотел бы получить данные с различных веб-страниц, таких как адреса ресторанов или даты различных событий для данного места и так далее. Какую лучшую библиотеку я могу использовать для извлечения этих данных из заданного набора сайтов? ...

Мне нужно создать php скрипт . Идея очень проста: Когда я отправляю ссылку блогпоста на этот php скрипт, то веб-страница обходит и первое изображение с титульной страницей сохраняется на моем сервере. Какую функцию PHP я должен использовать для этого искателя ?...

Я хочу, чтобы отправить значение "User-agent" при запросе веб-страницы с помощью Python запросы. Я не уверен, если это нормально, чтобы отправить это как часть заголовка, как в коде ниже: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_...

этот вопрос уже есть ответ здесь: гусеничный против скребок 4 ответы есть ли разница между ползанием и веб-выскабливанием? Если есть разница, какой лучший метод использовать для сбора некоторых веб-данных для предост...

можно ли найти все страницы и ссылки на любой сайт? Я хотел бы ввести URL-адрес и создать дерево каталогов всех ссылок с этого сайта? Я посмотрел на HTTrack, но это загружает весь сайт, и мне просто нужно дерево каталогов....

Я развертываю сайт замены для клиента, но они не хотят, чтобы все их старые страницы заканчивались 404s. сохранение старой структуры URL было невозможно, потому что это было отвратительно. поэтому я пишу обработчик 404, который должен искать старую запрашиваемую страницу и делать постоянное перенаправление н...

Я пытаюсь передать определяемый пользователем аргумент, чтобы паука в scrapy это. Может ли кто-нибудь предложить, как это сделать? Я читал о параметре -a где-то, но понятия не имею, как использовать его....

Я столкнулся с вопросом интервью "если бы вы разрабатывали веб-Искатель, как бы вы избежали попадания в бесконечные циклы? - и я пытаюсь ответить на него. Как все это начинается с самого начала. Скажем, Google начал с некоторых страниц концентратора, говорят сотни из них (как эти страницы концентратора были ...

У меня есть веб-страница с кучей ссылок. Я хочу написать скрипт, который будет сбрасывать все данные, содержащиеся в этих ссылках, в локальный файл. кто-нибудь делал это с PHP? Общие рекомендации и готы были бы достаточны в качестве ответа....

Я ищу способ псевдо-паук веб-сайт. Ключ в том, что я на самом деле не хочу контент, а скорее простой список URI. Я могу достаточно близко подойти к этой идее с Wget С помощью --spider вариант, но когда трубопровод, что выход через grep, Я не могу найти правильную магию, чтобы заставить ее работать: wget --sp...