为什么说中位数比平均数更稳健?
3个回答
这里稳健(robust)的定义是数据点较少时,统计值(mean或meidan)的估计受outlier影响小。
用最大似然估计,mean unbiased estimator是求MSE(L2norm,Gaussian distribution)最小值。median-unbiased estimator是求absolute-deviation(L1norm, Laplace distribution)最小值。
$$\mu=\text{argmin}_{\mu}(\sum |x_i-\mu|_2^2)$$
$$median=\text{argmin}_{median}(\sum |x_i-median|)$$
可以看到求期望时,outlier影响是平方关系,而求中位数时,outlier影响是线性关系。所以中位数能减小outlier的影响。
--------------------------------------------------------------------
一个题外话,当数据点很多,且数据满足高斯分布,此时不需要考虑稳健问题,反而是sample mean比sample median更精确,估计的方差更小。参考这里最后公式。
其中$2m+1$是数据点个数。
SofaSofa数据科学社区DS面试题库 DS面经
谢谢!
-
jialong
2019-06-03 20:31
有一簇点,但是其中有两个离群点(噪音)。你觉得下面的图里是红色(均值)更能代表这一簇的整体,还是黄色的点(中位数)更能代表整体?
显然中位数并没有收到噪音的影响。
谢谢!
-
jialong
2019-06-03 20:31