如题,训练集中加入噪声,是有效防止了over fitting,还是加剧了overfitting?我看两种说法都有。
3个回答
引入噪声通常是为了防止过拟合的,噪声一般能提高模型的泛化能力。
从另一个角度来看,训练集和测试集的区别往往就是一些噪声。
SofaSofa数据科学社区DS面试题库 DS面经
我看有的说法是“过拟合是因为模型学到了训练集中的噪声,并且基于噪声进行了预测”,感觉也有点道理。
-
sjcd
2018-04-07 14:09
加噪声可以降低过拟合。可以想象高纬数据空间只有很少的training data,我们感兴趣的子空间就有太多漏洞,testing data出现在这些漏洞就会有很大的误差。两个思路去填充漏洞,一个是加很强的光滑函数(比如高斯),另一个是人工造data,比如加噪声后让training data小幅度震动,减少漏洞。
但是直接在数据上加噪声效果很难说,高级点的做法是在抽象的投影空间内加噪声,比如在主要特征(variational autoencoder)或模型参数(mcmc)上加噪声。
SofaSofa数据科学社区DS面试题库 DS面经题主sjcd提到过拟合是因为模型学到了训练集中的噪声,并且基于噪声进行了预测
这话没错,但是这种情况下的过拟合可以通过交叉验证来防止。
在没有噪声的完美数据中,即使有交叉验证,也有可能发生过拟合。
SofaSofa数据科学社区DS面试题库 DS面经