常用的模型中,哪些具有较好的鲁棒性(robustness),不容易被噪声、离群值影响?
2个回答
最常用的线性回归模型是最小二乘模型,也就是损失函数为$\sum |\Delta y|^2$,平方误差和。在没有离群点的时候,最小二乘能够很好地进行拟合。
由于最小二乘是采用平方误差,这就相当于对离群点、异常点给了很大的权重(平方增长),从而使得这些异常点对整个模型有很大的影响。如下图,红色的点就是离群点,为了“迁就”这两个离群点,整个模型(绿色线)就发生了严重的倾斜。所以最小二乘回归并不具备鲁棒性。
所谓鲁棒(robust),就是让模型本身尽量少受离群点的影响。
最常用的鲁棒回归模型就是中位数回归,median regression,或者最小绝对偏差回归,Least Absolute Deviation regression。
中位数回归的一种推广叫做,分位数回归,具体可参考这里。
此外,还有huber回归,huber回归就是以huber loss为损失函数的回归模型,具体可以参考这里。
另外还有很多其他回归方法,但是没有上面几个常用,比如说
随机抽样一致回归法(RANSAC),Theil-San回归算法,student t-回归。