html-parsing

У меня есть таблица данных, как это: <table class="tablesorter" id="dea"> <thead> <tr> <th class="header ">Name</th> <th class="header">City</th> <th class="">Address</th> <th class="">Phone Nos</th> <th class="">Email</th> <th...

Я использую следующий код для поиска div: parser = etree.HTMLParser() tree = etree.parse(StringIO(page), parser) div = tree.xpath("//div[@class='content']")[0] Моя единственная проблема заключается в том, что после этого я не хочу полагаться на lxml для извлечения содержимого упомянутого div: я просто хо...

Я хотел бы создать страницу, где все изображения, которые находятся на моем сайте, перечислены с заголовком и альтернативным представлением. Я уже написал себе небольшую программу, чтобы найти и загрузить все HTML-файлы, но теперь я застрял на том, как извлечь src, title и alt из этого HTML: <img src="/...

Я хочу разобрать HTML (можно предположить, что это XML, преобразованный через Tidy) и получить все текстовые узлы (что означает узлы в теге Body, которые видны) и их расположение в XML-файле. Расположение означает положение текста в плоском XML-файле....

Моя идея состоит в том, чтобы каким-то образом минимизировать HTML-код на стороне сервера, чтобы клиент получал меньше байтов. Что я имею в виду под"minify"? Не застегивается. Больше похоже, например, что создатели jQuery делают с .мин .версии js . Другими словами, Мне нужно удалить ненужные пробелы и новы...

Я ищу Javascript для разбора следующего HTML: <p>random text random text random text random text</p> <kbd><h2>Heading One</h2>Body text Body text Body text Body text</kbd> <p>random text random text random text random text</p> ... и возвращаемся просто: He...

Мне нужно создать php скрипт . Идея очень проста: Когда я отправляю ссылку блогпоста на этот php скрипт, то веб-страница обходит и первое изображение с титульной страницей сохраняется на моем сервере. Какую функцию PHP я должен использовать для этого искателя ?...

я кодирую много парсеров. До сих пор я использовал HtmlUnit headless browser для парсинга и автоматизации браузера. теперь я хочу разделить обе задачи. поскольку 80% моей работы включает в себя только синтаксический анализ, я хочу использовать легкий HTML-парсер, потому что в HtmlUnit требуется много времен...

Я вижу вопросы каждый день спрашивая, как разобрать или извлечь что-то из какой-то строки HTML и первый ответ/Комментарий всегда "не используйте регулярное выражение для разбора HTML, чтобы вы не чувствовали гнев!(эта последняя часть иногда опускается). Это довольно запутанно для меня, я всегда думал, что в ...

каков наилучший способ выбрать весь текст между 2 тегами-например: текст между всеми тегами " pre " на странице....