随机森林只支持等权重地集成所有的决策树,如果我们根据每个树的预测精度来给每棵树设置不同的权重,那么这样的到的随机森林会更好嘛?
1个回答
我觉得不会。因为随机森林中每棵树见到的数据子集(sample with replacement)和特征都不一样,很难衡量一棵树比另一棵好。一个极端的例子,有棵树训练用到所有数据和特征,达到过拟合,训练错误为0,如果它权重很大,那结果接近于一棵树的结果,测试错误会较大。按训练误差给树加权重,本质上是减弱随机性,更倾向于达到过拟合。
但实际效果要试试才知道,可能针对不同数据和参数,效果会不同。而且树权重分布的设计也很重要。
这篇论文用准确率做权重,号称有改进。