text-extraction

Я ищу алгоритмы, которые позволяют извлекать текст с веб-сайтов. Я не имею в виду" strip html " или любую из сотен библиотек, которые это позволяют. Поэтому, например, для новостной статьи я хотел бы определить заголовок и весь текст, но не раздел комментариев и так далее. Существуют ли какие-либо алгоритмы...

У меня есть запись разговоров между двумя произвольными лицами а и В. c1 <- "Person A: blabla...something Person B: blabla something else Person A: OK blabla" c2 <- "Person A: again blabla Person B: blabla something else Person A: thanks blabla" Фрейм данных выглядит следующим образом: df <- da...

какие модули Python лучше всего конвертировать PDF-файлы в текст? ...

у меня есть строка, в которой есть две одинарные кавычки,' символ. Между одинарными кавычками есть данные, которые я хочу. Как я могу написать регулярное выражение, чтобы извлечь "данные, которые я хочу" из следующего текста? mydata = "some string with 'the data i want' inside"; ...

Я ищу библиотеку PDF, которая позволит мне извлечь текст из PDF-документа. Я посмотрел на PyPDF, и это может извлечь текст из PDF-документа очень красиво. Проблема с этим заключается в том, что если в документе есть таблицы, текст в таблицах извлекается в соответствии с остальной частью текста документа. Это ...

Python Версии 2.7 Я ищу документацию или примеры того, как извлечь текст из PDF-файла с помощью PDFMiner с Python. похоже, что PDFMiner обновил свой API, и все соответствующие примеры, которые я нашел, содержат устаревший код(классы и методы изменились). Библиотеки, которые я нашел, облегчают задачу извлеч...