Классификатор максимальной энтропии для больших наборов данных
Я искал реализацию максимальной энтропийной классификации, которая может иметь дело с выходным размером 500 классов и 1000 объектов. Мои тренировочные данные содержат около 30 000 000 строк. Я пробовал использовать MegaM, 64-битный пакет R maxent, инструмент maxent из Эдинбургского университета, но, как и ожидалось, ни один из них не может обрабатывать размер данных. Тем не менее, размер набора данных не кажется слишком необычным для задач НЛП такого рода. Есть ли какие-либо методы, которые я должен быть занятым? Или любое предложение для инструментария, который я могу использовать? Я пытаюсь запустить это на 64-разрядной машине Windows с 8 ГБ оперативной памяти, используя Cygwin, где это необходимо.
1 ответ:
Vowpal Wabbit в настоящее время считается самым быстрым крупномасштабным учеником. LibLinear является альтернативой, но я не уверен, что он может обрабатывать матрицы элементов 3e10.
Обратите внимание, что термин "MaxEnt" используется почти исключительно людьми НЛП; люди машинного обучения называют его логистической регрессией или логитом, поэтому, если вы ищете его, вы можете найти гораздо больше инструментов, чем когда вы ищете MaxEnt.