xgboost也会出现过拟合的情况,但是xgboost是含有正则项的,为什么还会过拟合呢?
5个回答
正则项只是防止过拟合,不能杜绝过拟合,因为在训练模型前预判过拟合也不是一件容易的事情。
xgboost中有多个变量可以防止过拟合,除了正则项,还有控制树的深度和叶子数,以及早停。
如果依旧过拟合,你可以考虑调整这些变量。这些变量在一种合适的搭配下合作才能有效阻止过拟合。但是最终判断是否过拟合还是需要用测试集或者交叉验证。
SofaSofa数据科学社区DS面试题库 DS面经数据集里多多少少会有噪音,有噪音就会有过拟合的现象发生,只是程度大小而已。正则化本身并不能去除数据里的噪音。
正如其他人说的,要防止过拟合,你也需要对xgb模型中的超参进行调参。
SofaSofa数据科学社区DS面试题库 DS面经防止过拟合并等价于阻止过拟合。相当于高速公路上的减速带,只能减速,并不能保证不撞车。
下面这个例子就是xgboost随着模型中树的个数增加,xgboost开始过拟合。
SofaSofa数据科学社区DS面试题库 DS面经