Вероятность случайного лесного классификатора имеет только значения 0, 0.1, 0.2... 1

Я пытаюсь использовать случайный лес для классификации моих данных, но когда я генерирую вероятность классификатора, она всегда имеет значение 0, 0.1, 0.2,... 1 в пределах 5 цифр. Это проблема статистики или проблема программного обеспечения? Я использую RandomForestClassifier в scikit-learn ensemble для Py...

sckit-научиться приспосабливать() приводит к ошибке после нормализации данных

Я пытался это сделать: Создание X объектов и y зависимых от набора данных разбить набор данных нормализовать данные тренируйтесь с использованием SVR из Scikit-learn Вот код, использующий фрейм данных pandas, заполненный случайными значениями import pandas as pd import numpy as np df = pd.DataFrame(...

ValueError: найдены массивы с несогласованным числом выборок [6 1786]

Вот мой код: from sklearn.svm import SVC from sklearn.grid_search import GridSearchCV from sklearn.cross_validation import KFold from sklearn.feature_extraction.text import TfidfVectorizer from sklearn import datasets import numpy as np newsgroups = datasets.fetch_20newsgroups( subset='all'...

Сохранить классификатор на диск в scikit-learn

Как сохранить обученный наивный байесовский классификатор до диск и использовать его в предсказания данные? У меня есть следующий пример программы с сайта scikit-learn: from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iri...

ImportError при импорте из sklearn: не удается импортировать сборку проверки имени

Я получаю следующую ошибку при попытке импорта из sklearn: >>> from sklearn import svm Traceback (most recent call last): File "<pyshell#17>", line 1, in <module> from sklearn import svm File "C:Python27libsite-packagessklearn__init__.py", line 16, in <module> from . imp...

Случайное состояние (псевдослучайное число)в Scikit learn

Я хочу реализовать алгоритм машинного обучения в scikit learn, но я не понимаю, что это за параметр random_state делает? Почему я должен его использовать? Я также не мог понять, что такое псевдослучайное число. ...

Используйте scikit-научитесь классифицировать на несколько категорий

Я пытаюсь использовать один из методов контролируемого обучения scikit-learn для классификации фрагментов текста в одну или несколько категорий. Функция прогнозирования всех алгоритмов, которые я пробовал, просто возвращает одно совпадение. например у меня есть кусок текста: "Theaters in New York compared t...

Как работает параметр веса класса в scikit-learn?

у меня много проблем с пониманием того, как class_weight параметр в логистической регрессии scikit-learn работает. Ситуация я хочу использовать логистическую регрессию для двоичной классификации на очень несбалансированном наборе данных. Классы обозначены 0 (отрицательный) и 1 (положительный), и наблюдаемые...

ошибка sklearn ValueError: вход содержит NaN, бесконечность или значение слишком большое для dtype('float64')

Я использую sklearn и возникли проблемы с распространением аффинности. Я построил входную матрицу, и я продолжаю получать следующую ошибку. ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). Я np.isnan(mat.any()) #and gets False np.isfinite(mat.all()) #and gets True Я п...

Анализ основных компонентов (PCA) в Python

У меня есть массив (26424 x 144), и я хочу выполнить PCA над ним с помощью Python. Однако в интернете нет конкретного места, которое объясняет, как достичь этой задачи (есть некоторые сайты, которые просто делают PCA по своему усмотрению - нет обобщенного способа сделать так, чтобы я мог найти). Любой, у кого...