Обучение программированию онлайн

Извлечение основного текста с сайтов например извлечение только заголовка статьи и текста не всего текста на сайте

Я ищу алгоритмы, которые позволяют извлекать текст с веб-сайтов. Я не имею в виду" strip html " или любую из сотен библиотек, которые это позволяют. Поэтому, например, для новостной статьи я хотел бы определить заголовок и весь текст, но не раздел комментариев и так далее. Существуют ли какие-либо алгоритмы...

5

7

Как извлечь только высказывания человека а в разговоре между двумя людьми а и Б

У меня есть запись разговоров между двумя произвольными лицами а и В. c1 <- "Person A: blabla...something Person B: blabla something else Person A: OK blabla" c2 <- "Person A: again blabla Person B: blabla something else Person A: thanks blabla" Фрейм данных выглядит следующим образом: df <- da...

5

8

regex dataframe text-extraction

Модуль Python для преобразования PDF в текст [закрыто]

какие модули Python лучше всего конвертировать PDF-файлы в текст? ...

13

346

python wkhtmltopdf text-extraction pdf-scraping

Как извлечь подстроку с помощью регулярного выражения

у меня есть строка, в которой есть две одинарные кавычки,' символ. Между одинарными кавычками есть данные, которые я хочу. Как я могу написать регулярное выражение, чтобы извлечь "данные, которые я хочу" из следующего текста? mydata = "some string with 'the data i want' inside"; ...

9

289

javascript regex string text-extraction

Расширенный анализ PDF с использованием Python (извлечение текста без таблиц и т. д.): Какая Лучшая библиотека? [закрытый]

Я ищу библиотеку PDF, которая позволит мне извлечь текст из PDF-документа. Я посмотрел на PyPDF, и это может извлечь текст из PDF-документа очень красиво. Проблема с этим заключается в том, что если в документе есть таблицы, текст в таблицах извлекается в соответствии с остальной частью текста документа. Это ...

2

73

python parsing wkhtmltopdf text-extraction information-extraction

Извлечение текста из PDF-файла с помощью PDFMiner в python?

Python Версии 2.7 Я ищу документацию или примеры того, как извлечь текст из PDF-файла с помощью PDFMiner с Python. похоже, что PDFMiner обновил свой API, и все соответствующие примеры, которые я нашел, содержат устаревший код(классы и методы изменились). Библиотеки, которые я нашел, облегчают задачу извлеч...

2

55

python text-extraction pdfminer