Как читать PDF файлы с помощью Java? [закрытый]


Я хочу прочитать некоторые текстовые данные из PDF-файла с помощью Java. Пожалуйста, помогите мне сделать это.

любая помощь приветствуется.

4 52

4 ответа:

PDFBox Это лучшая библиотека, которую я нашел для этой цели, она всеобъемлющая и действительно довольно проста в использовании, если вы просто делаете базовое извлечение текста. Примеры можно найти здесь.

Это объясняет это на странице, но одна вещь, чтобы следить за тем, что начальный и конечный индексы при использовании setStartPage() и setEndPage () являются и включительно. Я пропустил это объяснение в первый раз, а затем мне потребовалось некоторое время, чтобы понять, почему Я получал больше одной страницы назад с каждым звонком!

Itext другая альтернатива, которая также работает с C#, хотя я лично никогда не использовал его. Это более низкий уровень, чем PDFBox, поэтому менее подходит для работы, если все, что вам нужно, это базовое извлечение текста.

PDFBox содержит инструменты для извлечения текста.

iText имеет более низкий уровень поддержки для обработки текста, но вам придется написать значительное количество кода, чтобы получить извлечение текста.

iText в действиях содержит хороший обзор ограничений извлечения текста из PDF, независимо от используемой библиотеки (раздел 18.2: извлечение и редактирование текста), и убедительное объяснение, почему библиотека не поддерживает извлечение текста. Короче говоря, относительно легко написать код, который будет обрабатывать простые случаи, но в принципе невозможно извлечь текст из PDF в целом.

С Apache PDFBox это выглядит так:

PDDocument document = PDDocument.load(new File("test.pdf"));
if (!document.isEncrypted()) {
    PDFTextStripper stripper = new PDFTextStripper();
    String text = stripper.getText(document);
    System.out.println("Text:" + text);
}
document.close();

используйте библиотеку PDF, например iText.