随机森林在训练的时候每次只用了一部分的特征。特征的数量是如何确定的?
一半?三分之一?还是有什么规则?
2个回答
根据随机森林的原创者的论文,如果是回归问题选$p/3$个特征,如果是分类问题选$\log_2(p+1)$个特征,$p$为特征总数。
不过这个只是一个“场外指导”,最好还是通过cross validation来选。
所谓规则或者规律,其实都是经验之谈。
特征选太多或者太少都是不合适的。
理论上来说,
太少:预测能力不强
太多:树的相关性太高
小橘书《elements of statistical learning》上推荐的是取根号。也就是说,如果原来有100个特征,那么每个split用10个;原来50个,那么差不多用7个。
归根结底,还是要做cross validation的。