xgboost有正则项为什么还会过拟合呢?

  统计/机器学习 监督式学习 开放问题    浏览次数:6443        分享
0

xgboost也会出现过拟合的情况,但是xgboost是含有正则项的,为什么还会过拟合呢?

 

阿梳卡   2019-03-02 10:47



   5个回答 
6

正则项只是防止过拟合,不能杜绝过拟合,因为在训练模型前预判过拟合也不是一件容易的事情。

xgboost中有多个变量可以防止过拟合,除了正则项,还有控制树的深度和叶子数,以及早停。

如果依旧过拟合,你可以考虑调整这些变量。这些变量在一种合适的搭配下合作才能有效阻止过拟合。但是最终判断是否过拟合还是需要用测试集或者交叉验证。

SofaSofa数据科学社区DS面试题库 DS面经

淡淡的   2019-04-09 14:06

4

有正则项只是一定程度上减轻了过拟合的情况吧,肯定不可能过拟合完全不出现的

SofaSofa数据科学社区DS面试题库 DS面经

dzzxjl   2019-03-02 13:53

2

数据集里多多少少会有噪音,有噪音就会有过拟合的现象发生,只是程度大小而已。正则化本身并不能去除数据里的噪音。

正如其他人说的,要防止过拟合,你也需要对xgb模型中的超参进行调参。

SofaSofa数据科学社区DS面试题库 DS面经

wxw_pku   2019-05-10 12:36

2

防止过拟合并等价于阻止过拟合。相当于高速公路上的减速带,只能减速,并不能保证不撞车。

下面这个例子就是xgboost随着模型中树的个数增加,xgboost开始过拟合。

SofaSofa数据科学社区DS面试题库 DS面经

我小宋   2019-12-02 13:44

1

为什么我已经在运动了还是会肥呢?

SofaSofa数据科学社区DS面试题库 DS面经

quentin   2019-05-10 17:25



  相关讨论

XGBoost损失函数中正则项的理解

xgboost是如何实现early stopping防止过拟合的?

为什么正则项通常都是用L1或者L2,而不是其他的?

最小角回归是天然的LASSO化?正则化参数怎么体现?

如何理解“迭代步骤本身就是一个正则化的过程”

L1范数回归与TV正则化哪个的回归效果更好?

XGBoost为什么可以通过叶子节点的权值w的L2模平方来控制树的复杂度?

L1正则化和L2正则化的区别?L1为啥具有稀疏性?

正则项里的L1,L2是什么意思?

L0 norm 正则是什么意思?

  随便看看

numpy array里怎么用fillna填充nan的值?

AB实验的哈希分桶技术是什么意思?

sklearn里的LabelEncoder什么用?

python里怎么表示科学计数法?

概率论中的鞅是什么?