离群点、孤立点、异常点有什么区别吗?

  统计/机器学习 无监督学习 数据预处理    浏览次数:11804        分享
1

平时提到的离群点、孤立点、异常点有什么区别吗?是一回事吗?


 

ggg818   2018-04-26 09:39



   3个回答 
9

离群点(outlier)和异常点(anomaly)其实都混着用的,我感觉大同小异。如果真要纠结离群点和异常点的区别的话,我可以说说我的理解。

离群点一般是指远离其他点的,比如距离均值超过3个标准差。比如说,全班考试平均分20,标准差是10,你考了100分,你就离群了。从假设检验的角度来说,给定了一个总体的分布,p值很小很小的点就是离群的。

异常点比离群点更广泛些。除了离群,有差错的点也算是异常。比如说,全班考试平均分20,标准差是10,你考了100分,你就异常(离群)了。如果你考了-5分,尽管在3个标准差之内,但是负数明显是异常的。如果你考了31.415926分,也异常了,因为分数一般是整数或者0.5。

异常点还可以针对分类变量,比如有个变量是城市名称,上海、北京、深圳,如果这里还出现了“广东”,这就不对了,因为广东并不是城市的名字。


SofaSofa数据科学社区DS面试题库 DS面经

Josh_Josh   2018-05-02 23:27

4

基本上就是同义词,Outlier Analysis这本书开头就写了

Outliers(离群点、孤立点) are also referred to as abnormalities, discordants, deviants, or anomalies(异常点) in the data mining and statistics literature.

感觉没必要深究。

SofaSofa数据科学社区DS面试题库 DS面经

木子周   2018-05-12 22:11

3

我觉得就是可以理解为一个意思吧,不然有点咬文嚼字了

SofaSofa数据科学社区DS面试题库 DS面经

whanq   2019-01-23 15:29



  相关讨论

单一变量下的异常检测该怎么做?

kNN用来做异常点检测?

在训练前数据处理的时候,怎么剔除异常值?

如果数据不是正态分布,能用3sigma原则剔除异常值吗?

如果不去掉异常值(outlier),会对线性回归模型有什么影响?

学习曲线异常分析

如何用K Means做异常检测(outlier anomaly detection)?

对于异常数据的判断?

auto-encoder异常检测的问题,无标签情况下怎么进行预测?

EM

  随便看看

如果样本不是正态分布,还能用t-test或者z-test吗?

不用洛必达法则证明sin x比上x的极限是1

python里清除已经定义过的变量

线性回归或者逻辑回归中常提到的AIC和BIC是什么意思?

opencv里waitkey和destroyAllWindows有什么用?