Какой корпус спама я могу использовать в NLTK?


Мой вопрос довольно тесно связан с Этим, но я решил открыть другой поток вопросов. Я надеюсь, что это нормально.

Я также создаю спам-фильтр, используя NLTK в Python, но я только начал.

Интересно, какой корпус спама я могу использовать и как его импортировать? Я не нашел никаких "встроенных в nltk" корпусов спама (здесь ).

Заранее благодарю вас.

2 7

2 ответа:

Это представления используется Энрон-спам набора данных (200,000+ писем).

Обучающие и тестовые наборы поступают из набора данных 200 000+ Enron электронные письма, содержащие как" спам", так и" ветчину "

Спам получить несложно. Достаточно свежий спам в больших количествах не обязательно является большой проблемой; большая загадка заключается в том, как получить ветчину. Если вы только создаете свой собственный спам-фильтр, конечно, вы можете использовать свою собственную ветчину.

Публичный корпус SpamAssassin становится очень старым, но у вас есть это; http://spamassassin.apache.org/publiccorpus/

Есть также корпусы из трека спама TREC, которые несколько больше, но не намного новее или менее предвзято; http://plg.uwaterloo.ca/~gvcormac / treccorpus /

Различные энтузиасты продолжают публиковать свой спам в интернете, но большинство из них не включают полные заголовки и т. д. Если вас интересует только фильтрация "мешка слов", возможно, этого достаточно.