Найдите 10 наиболее часто встречающихся слов с морфологией [закрыто]

Пожалуйста, скажите мне, как лучше решить эту проблему. У меня есть текст на русском языке и я хочу найти 10 самых распространенных слов с морфологией. Может быть, есть какие-нибудь библиотеки с открытым исходным кодом, чтобы решить эту проблему в python?...

Python Pandas-сравнить текст столбца и обеспечить совпадающее количество слов

Я пытаюсь разработать инструмент сравнения строк. У меня есть два набора данных json, как показано ниже. DF 1: ID Subject 1 Angular JS : getting unexpected cross symbol with Image 2 Cordova debug: the specified file was not found 3 get custom mask for phone numbers 4 Remove files for the Xcode Bot...

ValueError: найдены массивы с несогласованным числом выборок [6 1786]

Вот мой код: from sklearn.svm import SVC from sklearn.grid_search import GridSearchCV from sklearn.cross_validation import KFold from sklearn.feature_extraction.text import TfidfVectorizer from sklearn import datasets import numpy as np newsgroups = datasets.fetch_20newsgroups( subset='all'...

Парадигматические модули против Lemmatizers

обработка естественного языка (НЛП), особенно для английского языка, превратилась в стадию, когда стемминг стал бы архаичной технологией, если бы существовали "совершенные" лемматизаторы. Это потому, что стеммеры изменяют поверхностную форму слова/токена в некоторые бессмысленные стебли. модули [in]: hav...

Обучающие данные для анализа настроений [закрыто]

где я могу получить корпус документов, которые уже были классифицированы как положительные/отрицательные для настроений в корпоративном домене? Я хочу большой корпус документов, которые предоставляют обзоры для компаний, таких как обзоры компаний, предоставляемых аналитиками и СМИ. Я нахожу корпорации, котор...