Обучение программированию онлайн

Как извлечь img src, title и alt из html с помощью php?

Я хотел бы создать страницу, где все изображения, которые находятся на моем сайте, перечислены с заголовком и альтернативным представлением. Я уже написал себе небольшую программу, чтобы найти и загрузить все HTML-файлы, но теперь я застрял на том, как извлечь src, title и alt из этого HTML: <img src="/...

21

133

Синтаксический анализ HTML-файла с помощью selectorgadget.com

Как я могу использовать красивый суп иselectorgadget , чтобы очистить веб-сайт. Например, у меня есть веб-сайт - (продукт newegg) , и я хотел бы, чтобы мой скрипт вернул все спецификации этого продукта (нажмите на спецификации)......, 2,4 ГГц, 1066 МГц, ...... , 3 года ограничения. После использования sele...

2

3

python css beautifulsoup html-content-extraction screen-scraping

Разница между скобкой [] и двойной скобкой [[]] для доступа к элементам списка или фрейма данных

R предоставляет два различных способа для доступа к элементам списка или данных.кадр-то [] и [[]] операторы. в чем разница между ними? В каких ситуациях я должен использовать один над другим?...

11

422

javascript list dataframe html-content-extraction r-faq

Как я могу извлечь все значения из словаря в Python?

у меня есть словарь d = {1:-0.3246, 2:-0.9185, 3:-3985, ...}. как извлечь все значения d в список l?...

8

116

python nsdictionary html-content-extraction

BeautifulSoup Захватить Видимый Текст Веб-Страницы

в принципе, я хочу использовать BeautifulSoup, чтобы захватить строго видимый текст на странице. Например, этот сайт мой тест. И я в основном хочу просто получить основной текст (статью) и, возможно, даже несколько имен вкладок здесь и там. Я пробовал предложение в этом и что возвращает много <script> т...

8

96

python text beautifulsoup html-content-extraction

Как разобрать Манифест.mbdb-файл в резервной копии iTunes iOS 4.0

в iOS 4.0 Apple переработала процесс резервного копирования. iTunes используется для хранения списка имен файлов, связанных с файлами резервных копий в Манифесте.plist-файл, но в iOS 4.0 он переместил эту информацию в манифест.мбдб вы можете увидеть пример этого файла, сделав резервную копию с вашего устр...

8

81

iphone backup ios4 html-content-extraction

Доступ к последним X символам строки в Bash

я узнал, что с ${string:0:3} можно получить доступ к первым 3 символам строки. Существует ли эквивалентно простой способ доступа к последним трем символам? ...

4

78

string bash html-content-extraction

разбор HTML на iPhone [закрыто]

может ли кто-нибудь порекомендовать библиотеку C или Objective-C для синтаксического анализа HTML? Он должен обрабатывать грязный HTML-код, который не будет полностью проверять. существует ли такая библиотека, или мне лучше просто пытаться использовать регулярные выражения?...

9

68

parsing html iphone html-content-extraction

Извлечение части совпадения регулярных выражений

Я хочу, чтобы регулярное выражение для получения названия из HTML-страницы. В настоящее время у меня есть это: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') есть ли регулярное выражение...

8

65

python regex html html-content-extraction

Использование BeautifulSoup для поиска HTML-тега, содержащего определенный текст

Я пытаюсь получить элементы в HTML-документе, которые содержат следующий шаблон текста: #S{11} <h2> this is cool #12345678901 </h2> Так, предыдущий будет соответствовать с помощью: soup('h2',text=re.compile(r' #S{11}')) и результаты будут что-то вроде: [u'blahblah #223409823523', u'thisisin...

3

54

python regex beautifulsoup html-content-extraction