Извлечение html текста между элементами

Итак, я хочу соскрести альбомы и песни с этого сайта с красивым супом. HTML выглядит следующим образом: <div id="listAlbum"> <a id="19215"></a> <div class="album"> "album: " <b>"3 Feet High And Rising"</b> == $0 " (1989)" </div> <a href=...

Получить содержимое по именам классов, используя красивый суп

Используя модуль Beautiful Soup, как я могу получить данные тега div, имя класса которого feeditemcontent cxfeeditemcontent? Разве это: soup.class['feeditemcontent cxfeeditemcontent'] Или: soup.find_all('class') Это HTML-источник: <div class="feeditemcontent cxfeeditemcontent"> <div cla...

Синтаксический анализ HTML-файла с помощью selectorgadget.com

Как я могу использовать красивый суп иselectorgadget , чтобы очистить веб-сайт. Например, у меня есть веб-сайт - (продукт newegg) , и я хотел бы, чтобы мой скрипт вернул все спецификации этого продукта (нажмите на спецификации)......, 2,4 ГГц, 1066 МГц, ...... , 3 года ограничения. После использования sele...

BeautifulSoup Захватить Видимый Текст Веб-Страницы

в принципе, я хочу использовать BeautifulSoup, чтобы захватить строго видимый текст на странице. Например, этот сайт мой тест. И я в основном хочу просто получить основной текст (статью) и, возможно, даже несколько имен вкладок здесь и там. Я пробовал предложение в этом и что возвращает много <script> т...

TypeError: требуется байт-подобный объект, а не' str ' в python и CSV

TypeError: требуется байт-подобный объект, а не' str' получаю выше сообщение об ошибке во время выполнения ниже код Python, чтобы сохранить данные в HTML-таблицы в файл CSV. не знаю, как избавиться.пожалуйста, помогите мне. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsof...

Как найти детей узлов с помощью красивого супа

Я хочу получить все <a> теги, которые являются детьми <li> <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Я знаю, как найти элемент с определенны...

Python: BeautifulSoup-получить значение атрибута на основе атрибута name

Я хочу напечатать значение атрибута на основе его имени, например <META NAME="City" content="Austin"> Я хочу сделать что-то подобное soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print meta_tag['conten...

UnicodeEncodeError: кодек 'charmap' не может кодировать символы

Я пытаюсь очистить сайт, но это дает мне ошибку. Я использую следующий код: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) и я получаю следующую ошибку: File "C:Python34libencodingscp...

Использование BeautifulSoup для поиска HTML-тега, содержащего определенный текст

Я пытаюсь получить элементы в HTML-документе, которые содержат следующий шаблон текста: #S{11} <h2> this is cool #12345678901 </h2> Так, предыдущий будет соответствовать с помощью: soup('h2',text=re.compile(r' #S{11}')) и результаты будут что-то вроде: [u'blahblah #223409823523', u'thisisin...

установите красивый суп с помощью pip [дубликат]

этот вопрос уже есть ответ здесь: python3 --версия показывает "NameError: имя 'python3' не определено" 2 ответы Я пытаюсь установить BeautifulSoup с помощью pip в Python 2.7. Я продолжаю получать сообщение об ошибке, ...