Альтернатива Tika / PDFBox для парсинга PDF в Solr (любая версия позже 1.4)

Question

Альтернатива Tika / PDFBox для парсинга PDF в Solr (любая версия позже 1.4)

Похоже, что Solr неправильно анализирует мои PDF-файлы. Мне было интересно, есть ли какая-либо другая альтернатива использованию Apache Tika (который, как я полагаю, использует PDFBox внутренне) для разбора PDF-файлов? Я, кажется, получаю случайные пробелы между моим контентом, когда использую это. Я изолировал проблему, запустив PDF через PDFBox напрямую (последняя версия), которая имеет ту же проблему.

Некоторые коммерческие программы OCR, такие как Omnifind, прекрасно работают с PDF, но мы не можем интегрировать их. они с Solr точно так же, и покупка тоже не вариант.

3 4

solr pdfbox

3 ответа:

Xpdf содержит pdftotext, который преобразует документы намного лучше, чем Tika.

1

Я использую jpod в качестве резервной библиотеки для извлечения из pdf, когда pdfbox полностью выходит из строя (зависание, сбой...), так что, по крайней мере, в некоторых случаях он работает лучше, чем pdbbox для меня.

1

Tom De Leu · Accepted Answer · 2017-05-23 15:09:17

Как показывает ответ на этот вопрос SO, это связано с природой самого формата PDF.

Возможно, что опции OCR лучше справляются с этой проблемой, чем PDFBox, есть некоторые свободные опции OCR, такие как Tesseract и Ocropus, но я понятия не имею, насколько хорошо они работают и могут ли они быть легко интегрированы с Solr.