classification
Мой вывод weka показывает: Correctly Classified Instances 32083 94.0244 % Incorrectly Classified Instances 2039 5.9756 % Я хочу иметь возможность распечатать то, что было неверными экземплярами, чтобы я мог внести коррективы и понять, почему они были неправильно кла...
Существует ли способ (программа, библиотека) приблизительно знать, на каком языке написан документ? У меня есть куча текстовых документов (~500K) на смешанных языках для импорта в CMS с поддержкой i18n (Drupal).. Мне не нужны идеальные совпадения, только некоторые догадки....
Я искал реализацию максимальной энтропийной классификации, которая может иметь дело с выходным размером 500 классов и 1000 объектов. Мои тренировочные данные содержат около 30 000 000 строк. Я пробовал использовать MegaM, 64-битный пакет R maxent, инструмент maxent из Эдинбургского университета, но, как и ожи...
Я использую scikit-learn в Python для разработки алгоритма классификации для прогнозирования пола определенных клиентов. Среди прочего, я хочу использовать наивный классификатор Байеса, но моя проблема заключается в том, что у меня есть смесь категориальных данных (например: "зарегистрирован онлайн", "принима...
Я работаю с Keras NN с бэкэндом Aanos, я работаю над проблемой классификации с 14 выходными классами. Мне нужен предсказанный класс плюс связанные с ним вероятности. Проблема в том, что вероятности из predict_proba () не совпадают с предсказанным классом из predict (), вот код плюс результирующий вывод 1 обра...
Официальный документ, по-видимому, не содержит такой информации. Мне интересно, почему мы не можем предоставить VotingClassifier уже обученные модели, поэтому нам не нужно тренироваться снова, так как VotingClassifier требует, чтобы мы вызвали метод fit перед предсказанием. Делает ли это просто: for clf i...
Я хотел бы кластеризировать пользователей на основе категорий или тегов шоу, которые они смотрят. Какой самый простой/лучший алгоритм для этого? Предполагая, что у меня есть около 20 000 тегов и несколько миллионов событий просмотра, которые я могу использовать в качестве сигналов, есть ли алгоритм, который...
Я хочу классифицировать твиты в рамках заданного набора категорий, таких как {"спорт", "развлечения", "любовь"} и т. д... Моя идея состоит в том, чтобы взять термин частоты наиболее часто используемых слов, чтобы помочь мне решить эту проблему. Например, слово " любовь "чаще всего встречается в категории Лю...
Как сохранить обученный наивный байесовский классификатор до диск и использовать его в предсказания данные? У меня есть следующий пример программы с сайта scikit-learn: from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iri...
Я пытаюсь использовать один из методов контролируемого обучения scikit-learn для классификации фрагментов текста в одну или несколько категорий. Функция прогнозирования всех алгоритмов, которые я пробовал, просто возвращает одно совпадение. например у меня есть кусок текста: "Theaters in New York compared t...