TFIDF: реализация tf
Я внедряю инструмент классификации и экспериментирую с различными версиями TF: две логарифмические (коррекция внутри / вне логарифмического вызова), нормализованные, дополненные и log-средние. По-видимому, есть существенная разница в точности моего классификатора, модулированного этими-целых 5%. Однако странно то, что я не могу заранее сказать, какой из них будет лучше работать с данным набором данных. Интересно, есть ли какая-то работа, которую я пропускаю, или, может быть, кто-то еще могли бы поделиться опытом работы с ними?
2 ответа:
В основном увеличение важности путем добавления данного термина в документ должно уменьшаться с увеличением числа появлений этого термина. Например," автомобиль", появляющийся в документе дважды, подразумевает, что этот термин гораздо важнее, чем появление только один раз. Однако, если вы сравниваете термин, появляющийся 20 раз, с тем же термином, появляющимся 19, эта разница должна быть меньше.
То, что вы делаете, указывая различные нормализации, определяет, насколько быстро значение TF насыщается в некоторых точка.
Вы можете попытаться соотнести свои выводы с некоторой информацией о среднем TF на документ или аналогичными метриками.
Действительно, очень трудно заранее сказать, какая схема взвешивания будет работать лучше всего. В целом, нетбесплатного обеда - алгоритм, который лучше всего работает для одного набора данных, может быть ужасен для другого. Более того, речь здесь не идет о радикально отличающихся вариантах. TF-IDF воплощает одну специфическую интуицию в отношении классификации / поиска, и все ее различные варианты в некотором роде одинаковы. Единственный способ сказать-это экспериментировать
PS примечание по терминологии: когда вы говорите важно, вы проводили какие-либо тесты статистической значимости с перекрестной валидацией или случайной повторной выборкой? Возможно, что различия, которые вы видите, вызваны случайностью.