Найдите 10 наиболее часто встречающихся слов с морфологией [закрыто]


Пожалуйста, скажите мне, как лучше решить эту проблему.

У меня есть текст на русском языке и я хочу найти 10 самых распространенных слов с морфологией. Может быть, есть какие-нибудь библиотеки с открытым исходным кодом, чтобы решить эту проблему в python?

2 3

2 ответа:

Вы можете использовать один из анализаторов морфологии Python для русского языка, чтобы нормализовать слово:

Есть также Портер-стеммер для русского языка в https://github.com/nltk/nltk . Кроме того, вы можете использовать http://company.yandex.ru/technologies/mystem/ из командной строки.

Я бы рекомендовал pymorphy2 для вашей задачи, но я немного предвзят :)

PyStemmer и NLTK являются здесь двумя очевидными библиотеками.