Лучший Java lib для программного преобразования HTML-страницы в изображение / PDF [закрыто]


Я ищу лучший Java lib, который я могу передать в URL и заставить его создать образ того, как выглядит веб-страница, как это было бы в браузере. Я попробовал flyingsaucer однако кажется, что почти каждая веб-страница ломает его - он даже не рендерится www.google.com или yahoo.com - единственный сайт, который я мог бы заставить его рендерить, это www.w3c.org!

Мысли о лучшем инструменте для использования, или, возможно, позволить летающей тарелке быть более слабым в xhtml принимает?

3 3

3 ответа:

Летающая тарелка терпит неудачу на многих страницах, так как она позволяет только xhtml (см. руководство).

Но вы можете использовать некоторые HTML-библиотеки, чтобы "очистить" ваш ввод, а затем использовать FS.

Webesite - > "Чистильщик" - > Летающая Тарелка

Некоторые хорошие и свободные библиотеки:

  1. JSoup (личная рекомендация)
  2. HtmlCleaner
  3. JTidy (иногда более строгий, чем требуется)
  4. Jericho HTML

Может быть, вы можете попробовать itext.jar

Загрузите его из http://itextpdf.com/download.php

Об обходе html:

Используйте URL из библиотеки java. тому есть масса примеров.

О преобразовании PDF:

Если вы используете Spring framework, вы можете использовать класс AbstractPdfView через iText api. Этот - это мой любимый пример. Я думаю, что вы можете легко использовать его.

О преобразовании изображений:

Я рекомендую вот это: http://code.google.com/p/java-html2image/

Итого:

Читать html по URL → конвертировать его через iText или java-html2image. Я настоятельно рекомендую вам сделать это самостоятельно, а не оставлять в определенной библиотеке.