Какова мера, используемая для "важности" в случайном лесу h2o
Вот мой код:
set.seed(1)
#Boruta on the HouseVotes84 data from mlbench
library(mlbench) #has HouseVotes84 data
library(h2o) #has rf
#spin up h2o
myh20 <- h2o.init(nthreads = -1)
#read in data, throw some away
data(HouseVotes84)
hvo <- na.omit(HouseVotes84)
#move from R to h2o
mydata <- as.h2o(x=hvo,
destination_frame= "mydata")
#RF columns (input vs. output)
idxy <- 1
idxx <- 2:ncol(hvo)
#split data
splits <- h2o.splitFrame(mydata,
c(0.8,0.1))
train <- h2o.assign(splits[[1]], key="train")
valid <- h2o.assign(splits[[2]], key="valid")
# make random forest
my_imp.rf<- h2o.randomForest(y=idxy,x=idxx,
training_frame = train,
validation_frame = valid,
model_id = "my_imp.rf",
ntrees=200)
# find importance
my_varimp <- h2o.varimp(my_imp.rf)
my_varimp
Вывод, который я получаю, - это "переменная важность".
Классическими мерами являются "среднее снижение точности "и"среднее снижение коэффициента Джини".Мои результаты таковы:
> my_varimp
Variable Importances:
variable relative_importance scaled_importance percentage
1 V4 3255.193604 1.000000 0.410574
2 V5 1131.646484 0.347643 0.142733
3 V3 921.106567 0.282965 0.116178
4 V12 759.443176 0.233302 0.095788
5 V14 492.264954 0.151224 0.062089
6 V8 342.811554 0.105312 0.043238
7 V11 205.392654 0.063097 0.025906
8 V9 191.110046 0.058709 0.024105
9 V7 169.117676 0.051953 0.021331
10 V15 135.097076 0.041502 0.017040
11 V13 114.906586 0.035299 0.014493
12 V2 51.939777 0.015956 0.006551
13 V10 46.716656 0.014351 0.005892
14 V6 44.336708 0.013620 0.005592
15 V16 34.779987 0.010684 0.004387
16 V1 32.528778 0.009993 0.004103
Из этого моя относительная важность "голоса №4", он же V4, составляет ~3255,2.
Вопросы: В каких это подразделениях? Как это происходит?
Я попытался заглянуть в документацию, но не нашел ответа. Я попробовал помочь документация. Я попытался использовать поток, чтобы посмотреть на параметры, чтобы увидеть, если что-то там указывает на это. Ни в одном из них я не нахожу "Джини" или "снижение точности". Куда мне смотреть?1 ответ:
Ответ находится в docs .
[ в левой панели нажмите на" Алгоритмы", затем "контролируемые", затем "DRF". На этот вопрос отвечает раздел FAQ. ]
Для удобства ответ также копируется и вставляется сюда:
" как вычисляется переменная важность для DRF? Важность переменной определяется путем вычисления относительного влияния каждой переменной: была ли выбрана эта переменная во время разбиения в процессе построения дерева и сколько квадратов в результате ошибка (по всем деревьям) улучшилась."