html-content-extraction

Я хотел бы создать страницу, где все изображения, которые находятся на моем сайте, перечислены с заголовком и альтернативным представлением. Я уже написал себе небольшую программу, чтобы найти и загрузить все HTML-файлы, но теперь я застрял на том, как извлечь src, title и alt из этого HTML: <img src="/...

Как я могу использовать красивый суп иselectorgadget , чтобы очистить веб-сайт. Например, у меня есть веб-сайт - (продукт newegg) , и я хотел бы, чтобы мой скрипт вернул все спецификации этого продукта (нажмите на спецификации)......, 2,4 ГГц, 1066 МГц, ...... , 3 года ограничения. После использования sele...

R предоставляет два различных способа для доступа к элементам списка или данных.кадр-то [] и [[]] операторы. в чем разница между ними? В каких ситуациях я должен использовать один над другим?...

у меня есть словарь d = {1:-0.3246, 2:-0.9185, 3:-3985, ...}. как извлечь все значения d в список l?...

в принципе, я хочу использовать BeautifulSoup, чтобы захватить строго видимый текст на странице. Например, этот сайт мой тест. И я в основном хочу просто получить основной текст (статью) и, возможно, даже несколько имен вкладок здесь и там. Я пробовал предложение в этом и что возвращает много <script> т...

в iOS 4.0 Apple переработала процесс резервного копирования. iTunes используется для хранения списка имен файлов, связанных с файлами резервных копий в Манифесте.plist-файл, но в iOS 4.0 он переместил эту информацию в манифест.мбдб вы можете увидеть пример этого файла, сделав резервную копию с вашего устр...

я узнал, что с ${string:0:3} можно получить доступ к первым 3 символам строки. Существует ли эквивалентно простой способ доступа к последним трем символам? ...

может ли кто-нибудь порекомендовать библиотеку C или Objective-C для синтаксического анализа HTML? Он должен обрабатывать грязный HTML-код, который не будет полностью проверять. существует ли такая библиотека, или мне лучше просто пытаться использовать регулярные выражения?...

Я хочу, чтобы регулярное выражение для получения названия из HTML-страницы. В настоящее время у меня есть это: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') есть ли регулярное выражение...

Я пытаюсь получить элементы в HTML-документе, которые содержат следующий шаблон текста: #S{11} <h2> this is cool #12345678901 </h2> Так, предыдущий будет соответствовать с помощью: soup('h2',text=re.compile(r' #S{11}')) и результаты будут что-то вроде: [u'blahblah #223409823523', u'thisisin...