如果数据不是正态分布,能用3sigma原则剔除异常值吗?
3个回答
如果不是正态分布,3$\sigma$原则不一定适用,但是如果是近似正态分布,应该问题不大。
如果不知道数据分布,可以用中位数+3IQR的方法。也可以用box-cox把数据转成近似正态分布,然后再用3$\sigma$的方法。
SofaSofa数据科学社区DS面试题库 DS面经
谢谢
-
ysz_2020
2020-03-04 00:43
具体分析。3sigma的原理是正态分布时,3sigma能覆盖超过99%的数据。对于别的分布,3sigma的覆盖率会变化。比如log-normal这类的长尾分布,3sigma方法会把太多数据分类为异常。
你可以做实验,比如对N个数据算3sigma,再看异常个数是否能接受。
SofaSofa数据科学社区DS面试题库 DS面经
谢谢
-
ysz_2020
2020-03-04 00:43
如果数据不是正态分布,直接用3sigma,后果可能是你删除了太多数据,也可能你什么数据都删不掉。
我觉得最重要的是要结合业务逻辑,如果符合业务逻辑,即使是超出这个范围的数值也不一定非要剔除。
SofaSofa数据科学社区DS面试题库 DS面经