Обучение программированию онлайн

beautifulsoup возврат данных, как никто, что включает в себя тег

У меня есть таблица данных, как это: <table class="tablesorter" id="dea"> <thead> <tr> <th class="header ">Name</th> <th class="header">City</th> <th class="">Address</th> <th class="">Phone Nos</th> <th class="">Email</th> <th...

2

5

python beautifulsoup html-parsing

Как получить raw XML обратно из lxml?

Я использую следующий код для поиска div: parser = etree.HTMLParser() tree = etree.parse(StringIO(page), parser) div = tree.xpath("//div[@class='content']")[0] Моя единственная проблема заключается в том, что после этого я не хочу полагаться на lxml для извлечения содержимого упомянутого div: я просто хо...

2

6

python xml lxml html-parsing

Как извлечь img src, title и alt из html с помощью php?

Я хотел бы создать страницу, где все изображения, которые находятся на моем сайте, перечислены с заголовком и альтернативным представлением. Я уже написал себе небольшую программу, чтобы найти и загрузить все HTML-файлы, но теперь я застрял на том, как извлечь src, title и alt из этого HTML: <img src="/...

21

133

regex html php html-content-extraction html-parsing

Как получить текст из XML с позиции в XML-файле?

Я хочу разобрать HTML (можно предположить, что это XML, преобразованный через Tidy) и получить все текстовые узлы (что означает узлы в теге Body, которые видны) и их расположение в XML-файле. Расположение означает положение текста в плоском XML-файле....

3

2

c# xml html-parsing

Как минимизировать HTML-код?

Моя идея состоит в том, чтобы каким-то образом минимизировать HTML-код на стороне сервера, чтобы клиент получал меньше байтов. Что я имею в виду под"minify"? Не застегивается. Больше похоже, например, что создатели jQuery делают с .мин .версии js . Другими словами, Мне нужно удалить ненужные пробелы и новы...

4

8

html minify html-parsing

Синтаксический анализ определенных HTML-тегов в Javascript

Я ищу Javascript для разбора следующего HTML: <p>random text random text random text random text</p> <kbd><h2>Heading One</h2>Body text Body text Body text Body text</kbd> <p>random text random text random text random text</p> ... и возвращаемся просто: He...

3

2

javascript parsing tags html-parsing

Как написать этот кроулер на php?

Мне нужно создать php скрипт . Идея очень проста: Когда я отправляю ссылку блогпоста на этот php скрипт, то веб-страница обходит и первое изображение с титульной страницей сохраняется на моем сервере. Какую функцию PHP я должен использовать для этого искателя ?...

4

2

php web-crawler curl html-parsing

Какой парсер HTML является лучшим? [закрытый]

я кодирую много парсеров. До сих пор я использовал HtmlUnit headless browser для парсинга и автоматизации браузера. теперь я хочу разделить обе задачи. поскольку 80% моей работы включает в себя только синтаксический анализ, я хочу использовать легкий HTML-парсер, потому что в HtmlUnit требуется много времен...

3

173

javascript parsing html web-scraping html-parsing

Как работает синтаксический анализ HTML, если они не используют регулярное выражение?

Я вижу вопросы каждый день спрашивая, как разобрать или извлечь что-то из какой-то строки HTML и первый ответ/Комментарий всегда "не используйте регулярное выражение для разбора HTML, чтобы вы не чувствовали гнев!(эта последняя часть иногда опускается). Это довольно запутанно для меня, я всегда думал, что в ...

5

94

parsing regex html html-parsing

Регулярное выражение выделить весь текст между тегами

каков наилучший способ выбрать весь текст между 2 тегами-например: текст между всеми тегами " pre " на странице....

13

86

regex html html-parsing