tf-idf

Я внедряю инструмент классификации и экспериментирую с различными версиями TF: две логарифмические (коррекция внутри / вне логарифмического вызова), нормализованные, дополненные и log-средние. По-видимому, есть существенная разница в точности моего классификатора, модулированного этими-целых 5%. Однако странн...

Я делаю приложение с Spark, которое будет запускать некоторые алгоритмы извлечения темы. Для этого сначала мне нужно сделать некоторую предварительную обработку, извлекая матрицу документа-термина к концу. Я мог бы это сделать, но для большой коллекции документов (всего 2 тысячи 5 Мб) этот процесс занимает це...

Как вычислить tf-idf для запроса? Я понимаю, как вычислить tf-idf для набора документов со следующими определениями: Tf = вхождения в документе / общее количество слов в документе Idf = log (#documents / #documents, где встречается термин Но я не понимаю, как это соотносится с запросами. Наприм...

я последовал за учебник, который был доступен в Часть 1 & Часть 2. К сожалению, у автора не было времени для заключительного раздела, который включал использование косинусного сходства, чтобы фактически найти расстояние между двумя документами. Я следил за примерами в статье с помощью следующей ссылки из ...