Расширенный анализ PDF с использованием Python (извлечение текста без таблиц и т. д.): Какая Лучшая библиотека? [закрытый]


Я ищу библиотеку PDF, которая позволит мне извлечь текст из PDF-документа. Я посмотрел на PyPDF, и это может извлечь текст из PDF-документа очень красиво. Проблема с этим заключается в том, что если в документе есть таблицы, текст в таблицах извлекается в соответствии с остальной частью текста документа. Это может быть проблематично, потому что он создает разделы текста, которые не являются полезными и выглядят искаженными (например, много чисел пюре вместе.)

Я ищу что-то более продвинутое. Я хотел бы извлечь текст из PDF-документа,кроме таблицы и форматирование. Есть ли там библиотека, которая делает это? Или я вынужден сделать некоторую пост-обработку на выходном тексте, чтобы избавиться от этих разделов?

2 73

2 ответа:

вы также можете посмотреть PDFMiner, другой парсер PDF в Python.

особенность PDFMiner, которая может вас заинтересовать, заключается в том, что вы можете контролировать, как он перегруппирует текстовые части при выполнении извлечения. Вы делаете это, указывая пространство между строками, словами, символами и т. д. Таким образом, возможно, чирикая это вы можете достичь того, что вы хотите (это зависит от изменчивости ваших документов). PDFMiner также может дать вам расположение текста на странице, он может извлечение данных по идентификатору объекта и другие вещи. Так что копаться в PDFMiner и быть творческим!

но ваша проблема действительно непростая, потому что в PDF текст не является непрерывным, а состоит из множества небольших групп символов, расположенных абсолютно на странице. Основное внимание в PDF-файле уделяется сохранению макета. Это не контент-ориентированный, а ориентированный на презентацию.

Это сложная проблема для решения, так как визуально похожие PDF-файлы могут иметь сильно различающуюся структуру в зависимости от того, как они были произведены. В худшем случае библиотека должна была бы в основном действовать как OCR. С другой стороны, PDF может содержать достаточную структуру и метаданные для легкого удаления таблиц и рисунков, которые библиотека может использовать в своих интересах.

Я уверен, что нет инструментов с открытым исходным кодом, которые решают вашу проблему для широкого спектра PDF, но я помню, что слышал о коммерческом программном обеспечении, утверждающем, что делает именно то, что вы просите. Я уверен, что вы столкнетесь с ними, когда будете гуглить.