Лучший Java lib для программного преобразования HTML-страницы в изображение / PDF [закрыто]
Я ищу лучший Java lib, который я могу передать в URL и заставить его создать образ того, как выглядит веб-страница, как это было бы в браузере. Я попробовал flyingsaucer однако кажется, что почти каждая веб-страница ломает его - он даже не рендерится www.google.com или yahoo.com - единственный сайт, который я мог бы заставить его рендерить, это www.w3c.org!
Мысли о лучшем инструменте для использования, или, возможно, позволить летающей тарелке быть более слабым в xhtml принимает?
3 ответа:
Летающая тарелка терпит неудачу на многих страницах, так как она позволяет только xhtml (см. руководство).
Но вы можете использовать некоторые HTML-библиотеки, чтобы "очистить" ваш ввод, а затем использовать FS.
Webesite - > "Чистильщик" - > Летающая Тарелка
Некоторые хорошие и свободные библиотеки:
- JSoup (личная рекомендация)
- HtmlCleaner
- JTidy (иногда более строгий, чем требуется)
- Jericho HTML
Может быть, вы можете попробовать itext.jar
Загрузите его из http://itextpdf.com/download.php
Об обходе html:
Используйте URL из библиотеки java. тому есть масса примеров.
О преобразовании PDF:
Если вы используете Spring framework, вы можете использовать класс AbstractPdfView через iText api. Этот - это мой любимый пример. Я думаю, что вы можете легко использовать его.
О преобразовании изображений:
Я рекомендую вот это: http://code.google.com/p/java-html2image/
Итого:
Читать html по URL → конвертировать его через iText или java-html2image. Я настоятельно рекомендую вам сделать это самостоятельно, а не оставлять в определенной библиотеке.