Загрузка скрап-файла как использовать пользовательское имя файла

Для моего проекта scrapy я в настоящее время использую FilesPipeline. Загруженные файлы хранятся с хэшем SHA1 их URL-адресов в качестве имен файлов. [(True, {'checksum': '2b00042f7481c7b056c4b410d28f33cf', 'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384a3910.jpg', 'url': 'http://www.example.com/f...

Scrapy spider не включая все запрошенные страницы

У меня есть скриптовый сценарий для Yelp, который по большей части работает. По существу, я могу снабдить его списком страниц Yelp, и он должен вернуть все отзывы со всех страниц. Сценарий до сих пор находится ниже: from scrapy.spider import Spider from scrapy.selector import Selector from scrapy.http impor...

Scrapy SgmlLinkExtractor вопрос

Я пытаюсь сделать SgmlLinkExtractor на работу. Это подпись: SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) Я просто использую allow=() Итак, я ввожу rules = (Rule(SgmlLi...

scrapyd deploy показывает 0 пауков

Я использую scrapy для проекта. Я запустил следующие команды для развертывания проекта: $scrapy deploy -l Затем я получил следующее o/p: Скрапизит http://localhost:6800/ $cat scrapy.cfg [settings] default = scrapBib.settings [deploy:scrapysite] url = http://localhost:6800/ project = scrapBib $...

Не удается установить Lxml на Mac os x 10.9

Я хочу установить Lxml, чтобы затем я мог установить Scrapy. когда я обновил свой Mac сегодня он не позволит мне переустановить lxml, я получаю следующую ошибку: In file included from src/lxml/lxml.etree.c:314: /private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: fatal error: 'libxml/xmlver...

"OSError: [Errno 1] операция не разрешена" при установке Scrapy в OSX 10.11 (El Capitan) (защита целостности системы)

Я пытаюсь установить Scrapy Python framework в OSX 10.11 (El Capitan) через pip. Сценарий установки загружает необходимые модули и в какой-то момент возвращает следующую ошибку: OSError: [Errno 1] Operation not permitted: '/tmp/pip-nIfswi-uninstall/System/Library/Frameworks/Python.framework/Versions/2.7/Extr...

Можно ли использовать scrapy для очистки динамического контента с веб-сайтов, использующих AJAX?

Я недавно изучал Python и погружаю свою руку в создание веб-скребка. Это ничего особенного; его единственная цель-получить данные с веб-сайта ставок и поместить эти данные в Excel. большинство проблем разрешимы, и у меня есть хороший маленький беспорядок. Однако я сталкиваюсь с огромным препятствием по одно...

Как использовать PyCharm для отладки Scrapy проектов

Я работаю над Scrapy 0.20 с Python 2.7. Я обнаружил, что PyCharm имеет хороший отладчик Python. Я хочу проверить своих скребущих пауков, используя его. Кто-нибудь знает как это сделать пожалуйста? что я пробовал на самом деле я пытался запустить паука в качестве Сумы. В результате я построил эту сумку. Зат...

Как передать пользовательский аргумент в scrapy spider

Я пытаюсь передать определяемый пользователем аргумент, чтобы паука в scrapy это. Может ли кто-нибудь предложить, как это сделать? Я читал о параметре -a где-то, но понятия не имею, как использовать его....

селен с scrapy для динамической страницы

Я пытаюсь очистить информацию о продукте с веб-страницы, используя scrapy. Моя будущая веб-страница выглядит так: начинается со страницы product_list с 10 продуктов щелчок по кнопке "Далее" загружает следующие 10 продуктов (url-адрес не меняется между двумя страницами) Я использую LinkExtractor для перехода...