Альтернатива Tika / PDFBox для парсинга PDF в Solr (любая версия позже 1.4)
Похоже, что Solr неправильно анализирует мои PDF-файлы. Мне было интересно, есть ли какая-либо другая альтернатива использованию Apache Tika (который, как я полагаю, использует PDFBox внутренне) для разбора PDF-файлов? Я, кажется, получаю случайные пробелы между моим контентом, когда использую это. Я изолировал проблему, запустив PDF через PDFBox напрямую (последняя версия), которая имеет ту же проблему.
Некоторые коммерческие программы OCR, такие как Omnifind, прекрасно работают с PDF, но мы не можем интегрировать их. они с Solr точно так же, и покупка тоже не вариант.
3 ответа:
Как показывает ответ на этот вопрос SO, это связано с природой самого формата PDF.
Возможно, что опции OCR лучше справляются с этой проблемой, чем PDFBox, есть некоторые свободные опции OCR, такие как Tesseract и Ocropus, но я понятия не имею, насколько хорошо они работают и могут ли они быть легко интегрированы с Solr.
Xpdf содержит pdftotext, который преобразует документы намного лучше, чем Tika.
Я использую jpod в качестве резервной библиотеки для извлечения из pdf, когда pdfbox полностью выходит из строя (зависание, сбой...), так что, по крайней мере, в некоторых случаях он работает лучше, чем pdbbox для меня.