随机森林会发生过拟合(overfitting)吗?

  统计/机器学习 监督式学习 开放问题 随机森林    浏览次数:19728        分享
4

Random Forest会有过拟合的情况发生吗?

 

Alfred   2017-03-08 19:41



   2个回答 
15

相对于单个的Decision Tree,Random Forest不太容易over-fitting。Over-fitting的主要原因是因为模型学习了太多样本中的随机误差。因为Random Forest随机选择了样本和特征,并且将很多这样的随机树进行了平均,这些随机误差也随之被平均,乃至相互抵消了。但是这不代表它不会

很多人说Random Forest不会over-fitting。相信很多人也亲身经历过,我自己也见识过过RandomForest over-fitting了。

防止RandomFroest过拟合,一个方法是控制每个树的深度,深的树有可能会过拟合;另外一个是对模型进行交叉验证。

SofaSofa数据科学社区DS面试题库 DS面经

起个好名字   2017-03-10 22:20

Feature选少点,增加随机性,也能防止overfitting - batmanX   2017-03-12 10:53
谢谢! - Alfred   2017-03-26 13:39
2

任何机器学习算法都无法彻底避免过拟合的。

这是由机器学习的本质决定的,不是在技术层面可以修复的。 机器学习的核心在于泛化,但是数据又不可避免的包含noise,所以泛化就无法避免多多少少地也把noise包含进去。对于一个算法,它是没有办法区分noise和好数据的。因为这些通常是人也无法知道的,我们说一个toy dataset中某些数据是noise,这是我们的prior,机器是没有办法知道的。

所以随机森林当然也会过拟合,即使Breiman确实说过它不会overfitting。他口中的不会过拟合不过是指当树的数量够大多时,随着training error的持续下降,test error会稳定,而不是像很多算法一样,开始快速上升。有过手头经验的都知道,training error和test error之间始终是有差距的,他们的差值也通常可以看作是过拟合导致的。这个差值越大可以看作过拟合越厉害。

SofaSofa数据科学社区DS面试题库 DS面经

Jiho   2019-05-15 14:06



  相关讨论

Random Forest和Tree Bagging什么区别?

Random Forest可以用来做聚类?

为什么GBDT比RF更容易overfitting?

决策树模型有什么特点以及如何防止过拟合?

为什么过拟合不好?

Random Forest 过拟合有什么好办法?

xgboost是如何实现early stopping防止过拟合的?

线下训练集和测试集防过拟合

关于LR过拟合的数据集问题

xgboost有正则项为什么还会过拟合呢?

  随便看看

huber loss是什么?什么时候用?

怎么把pandas dataframe中一列英文文本全部转成小写?

训练集中有的特征含有缺失值,一般怎么处理

matplotlib一个画板上多个图叠加,如何决定图层上下?

Python的Jupyter Notebook环境下怎么制作一个动态显示的进度条?