随机森林每次用多少个特征?

  统计/机器学习 监督式学习 特征选择    浏览次数:9454        分享
3

随机森林在训练的时候每次只用了一部分的特征。特征的数量是如何确定的?

一半?三分之一?还是有什么规则?


 

NextPage   2017-10-24 09:23



   2个回答 
5

根据随机森林的原创者的论文,如果是回归问题选$p/3$个特征,如果是分类问题选$\log_2(p+1)$个特征,$p$为特征总数。

不过这个只是一个“场外指导”,最好还是通过cross validation来选。


SofaSofa数据科学社区DS面试题库 DS面经

可爱多   2017-10-25 11:39

2

所谓规则或者规律,其实都是经验之谈。

特征选太多或者太少都是不合适的。

理论上来说,

太少:预测能力不强

太多:树的相关性太高

小橘书《elements of statistical learning》上推荐的是取根号。也就是说,如果原来有100个特征,那么每个split用10个;原来50个,那么差不多用7个。


归根结底,还是要做cross validation的。


SofaSofa数据科学社区DS面试题库 DS面经

木子周   2017-10-26 11:54



  相关讨论

为什么特征重要性约大,在决策树里分裂的顺序却是越靠后呢?

随机森林给出的变量的Importance是怎么来的

怎么理解决策树是模型自己在做interaction?

对于树模型,需不需要特征筛选

GBDT的数据在使用前有什么需要注意的吗?

对于数值特征,决策树是如何决定阈值的?

adaboost里的feature importance和随机森林里的feature importance是一回事吗?

怎么理解lightgbm中的直方图法选择分裂点?

使用lightgbm,训练前对数据特征赋予权重是否对结果有影响

gbdt如何对连续特征离散化

  随便看看

为什么图的拉普拉斯矩阵的最小特征值一定是0?

KNN中K值的选择

推荐系统中的召回(recall)是什么意思?

怎么添加pandas的dataframe到已有的csv文件,并且不覆盖原内容

python sklearn模型中random_state参数的意义