веб-выскабливание с помощью Python и beautifulsoup 3.6 - получение неверный URL-адрес

Я хочу работать с этой страницей на Python: http://www.sothebys.com/en/search-results.html?keyword=degas%27 Вот мой код: from bs4 import BeautifulSoup import requests page = requests.get('http://www.sothebys.com/en/search-results.html?keyword=degas%27') soup = BeautifulSoup(page.content, "lxml") print(...

Scrapy spider не включая все запрошенные страницы

У меня есть скриптовый сценарий для Yelp, который по большей части работает. По существу, я могу снабдить его списком страниц Yelp, и он должен вернуть все отзывы со всех страниц. Сценарий до сих пор находится ниже: from scrapy.spider import Spider from scrapy.selector import Selector from scrapy.http impor...

В PHP - обнаружение изменений во внешней базе данных сайта

Для домашнего задания я создаю веб-сайт на PHP, основной функцией которого является агрегирование новостей о различных университетских курсах. Основная проблема заключается в следующем: (почти) каждый курс имеет свой собственный сайт. Они обычно просто HTML или построены с использованием какой-то простой бесп...

Как извлечь все текущие видеофайлы и их адрес на веб-странице с помощью js?

var imgs=document.images.length; Он может извлечь все изображения на веб-странице. Как извлечь все файлы flv, суффикс которых flv, такие как sample.flv на веб-странице с js?Не все файлы flv в моем локальном каталоге, а веб-страница. Плагин Video DownloadHelper в firefox может получить текущий файл mp4. Поч...

Какой парсер HTML является лучшим? [закрытый]

я кодирую много парсеров. До сих пор я использовал HtmlUnit headless browser для парсинга и автоматизации браузера. теперь я хочу разделить обе задачи. поскольку 80% моей работы включает в себя только синтаксический анализ, я хочу использовать легкий HTML-парсер, потому что в HtmlUnit требуется много времен...

Каков наилучший способ очистки данных с веб-сайта? [закрытый]

Мне нужно извлечь содержимое с веб-сайта, но приложение не предоставляет никакого интерфейса прикладного программирования или другого механизма для программного доступа к этим данным. Я нашел полезный сторонний инструмент под названием Import.io это обеспечивает функциональность click and go для очистки веб-...

В чем разница между веб-обходом и веб-выскабливанием? [дубликат]

этот вопрос уже есть ответ здесь: гусеничный против скребок 4 ответы есть ли разница между ползанием и веб-выскабливанием? Если есть разница, какой лучший метод использовать для сбора некоторых веб-данных для предост...

Веб-скребок с Java

Я не могу найти хороший веб-скребок на основе Java API. Сайт, который мне нужно очистить, также не предоставляет никакого API; я хочу перебирать все веб-страницы, используя некоторый pageID и извлекать заголовки HTML / другие вещи в своих деревьях DOM. есть ли другие способы, кроме веб-выскабливания? спасиб...

Сохраните и визуализируйте веб-страницу с помощью PhantomJS и node.js

Я ищу пример запроса веб-страницы, ожидая отображения JavaScript (JavaScript изменяет DOM), а затем захватывает HTML-код страницы. Это должен быть простой пример с очевидным прецедентом для PhantomJS. Я не могу найти достойный пример, документация, кажется, все об использовании командной строки....

селен с scrapy для динамической страницы

Я пытаюсь очистить информацию о продукте с веб-страницы, используя scrapy. Моя будущая веб-страница выглядит так: начинается со страницы product_list с 10 продуктов щелчок по кнопке "Далее" загружает следующие 10 продуктов (url-адрес не меняется между двумя страницами) Я использую LinkExtractor для перехода...