pdfminer
Я пытаюсь извлечь текст из pdf-файлов и позже попытаться идентифицировать ссылки. Я использую pdfminer 20140328. С незашифрованными файлами он работает хорошо, но теперь у меня есть файл, где я получаю: Файл "C:ToolsPython27libsite-packagespdfminerpdfdocument.py", строка 348, in _initialize_password ...
Я пытаюсь извлечь текст из PDF-файла с помощью PDFMiner (код, найденный в извлечение текста из PDF-файла с помощью PDFMiner в python?). Я не изменил код, кроме path / to / pdf. Удивительно, но код возвращает несколько копий одного и того же документа. Я получил тот же результат с другими файлами pdf. Нужно ли...
Я пытаюсь получить текстовые данные из PDF с помощью pdfminer. Я в состоянии извлечь данные .txt файл успешно с помощью инструмента командной строки pdfminer pdf2txt.py в настоящее время я делаю это, а затем использую скрипт python для очистки .txt-файл. Я хотел бы включить процесс извлечения pdf в скрипт и...
Python Версии 2.7 Я ищу документацию или примеры того, как извлечь текст из PDF-файла с помощью PDFMiner с Python. похоже, что PDFMiner обновил свой API, и все соответствующие примеры, которые я нашел, содержат устаревший код(классы и методы изменились). Библиотеки, которые я нашел, облегчают задачу извлеч...