Удалить теги из разбираемого красивого супового списка?

Question

Удалить теги из разбираемого красивого супового списка?

В данный момент я попадаю в цикл for со всеми строками, которые я хочу:

page = urllib2.urlopen(pageurl)
soup = BeautifulSoup(page)
tables = soup.find("td", "bodyTd")
for row in tables.findAll('tr'):

На данный момент у меня есть моя информация, но

<br />

Теги портят мой вывод.

Какой самый чистый способ удалить их?

4 12

python beautifulsoup html-parsing

4 ответа:

Если вы хотите перевести   в новые строки, сделайте что-то вроде этого:
def text_with_newlines(elem):
 text = ''
 for e in elem.recursiveChildGenerator():
 if isinstance(e, basestring):
 text += e.strip()
 elif e.name == 'br':
 text += '\n'
 return text

18

Замените теги в начале пробелом Красивый суп тоже принимает свое .read () на объекте urlopen, так что это должно работать - - -
page = urllib2.urlopen(pageurl)
page_text=page.read()
new_text=re.sub('',' ',page_text)
soup = BeautifulSoup(new_text)
tables = soup.find("td", "bodyTd")
for row in tables.findAll('tr'):
.....
Огонь.sub заменяет тег br пробелом

3

Может быть, some_string.replace(' ','\n') заменить разрывы новыми строками.
>>> print 'Some data More data '.replace(' ','\n')
Some data
More data
Вы можете проверить html5lib и lxml, которые оба довольно хороши в синтаксическом анализе html. lxml действительно быстр, а html5lib разработан, чтобы быть чрезвычайно надежным.

0

Kabie · Accepted Answer · 2011-05-08 06:57:20

for e in soup.findAll('br'):
    e.extract()