常用的回归模型中,哪些具有较好的鲁棒性(robustness)?

  统计/机器学习 回归分析    浏览次数:8057        分享
1

常用的模型中,哪些具有较好的鲁棒性(robustness),不容易被噪声、离群值影响?



 

吴昊通   2017-12-19 13:04



   2个回答 
10

最常用的线性回归模型是最小二乘模型,也就是损失函数为$\sum |\Delta y|^2$,平方误差和。在没有离群点的时候,最小二乘能够很好地进行拟合。


由于最小二乘是采用平方误差,这就相当于对离群点、异常点给了很大的权重(平方增长),从而使得这些异常点对整个模型有很大的影响。如下图,红色的点就是离群点,为了“迁就”这两个离群点,整个模型(绿色线)就发生了严重的倾斜。所以最小二乘回归并不具备鲁棒性。


所谓鲁棒(robust),就是让模型本身尽量少受离群点的影响。

最常用的鲁棒回归模型就是中位数回归,median regression,或者最小绝对偏差回归,Least Absolute Deviation regression。

中位数回归的一种推广叫做,分位数回归,具体可参考这里

此外,还有huber回归,huber回归就是以huber loss为损失函数的回归模型,具体可以参考这里

另外还有很多其他回归方法,但是没有上面几个常用,比如说

随机抽样一致回归法(RANSAC),Theil-San回归算法,student t-回归。


SofaSofa数据科学社区DS面试题库 DS面经

染盘   2017-12-26 14:23

3

如果不局限在线性模型的话,随机森林,xgboost都算比较robust的,树分叉的标准也可以选MAE,这样更robust

SofaSofa数据科学社区DS面试题库 DS面经

kykix   2018-10-05 11:54



  相关讨论

怎么理解分位数回归quantile regression的目标函数?

门槛回归是什么?

如果迫使一个线性回归模型的截距为0,会有什么坏处吗?

逻辑回归模型中变量的系数怎么理解?

怎么处理真值大部分为0的回归问题

最小二乘线性回归的推导

泊松回归的公式是什么?

在线性回归模型中存在epoch的说法吗?

用uci的crimes做了一个线性回归,test很差

TypeError: Expected sequence or array-like, got class 'map'

  随便看看

牛顿法到底是一阶优化算法还是二阶优化算法?

人工神经网络有哪些常用的激活函数?

numpy里矩阵乘法matmul,@和dot的区别?

返回DataFrame或者array的行数

lightgbm.LGBMModel和lightgbm.LGBMClassifier该用哪个?