全部问题问题热门未解答所有标签标签收藏收藏我要提问

在训练前数据处理的时候，怎么剔除异常值？

统计/机器学习数据预处理浏览次数：5844 分享

二维码

手机扫描二维码

机器学习面试也能刷题？

在训练前数据处理的时候，怎么剔除异常值？

有哪些常用的手段？

nzsfw 2018-10-12 12:11

2个回答

删除含有异常值的记录：直接将含有异常值的记录删除；
视为缺失值：将异常值视为缺失值，利用缺失值处理的方法进行处理；
平均值修正：可用前后两个观测值的平均值修正该异常值；
不处理：直接在具有异常值的数据集上进行数据挖掘；

SofaSofa数据科学社区 DS面试题库 DS面经

libinx 2018-10-15 01:17

@libinx 主要说了怎么处理异常值

我说下怎么发现异常值，一般要么是根据逻辑、常识，要么是根据实际数据分布

比如年龄作为特征一般在0到120之间，如果超过这个范围了肯定是异常了

根据数据分布的话通常是用IQR来判断，如果一个数和均值的差超过1.5倍的IQR了，就算是异常

SofaSofa数据科学社区 DS面试题库 DS面经

wxw_pku 2018-10-21 10:16

相关讨论

离群点、孤立点、异常点有什么区别吗？

如果不去掉异常值（outlier），会对线性回归模型有什么影响？

学习曲线异常分析

单一变量下的异常检测该怎么做？

如果数据不是正态分布，能用3sigma原则剔除异常值吗？

kNN用来做异常点检测？

如何用K Means做异常检测(outlier anomaly detection)？

对于异常数据的判断？

auto-encoder异常检测的问题，无标签情况下怎么进行预测？

数据白化是什么意思？

随便看看

python sklearn模型中random_state参数的意义

Python的Jupyter Notebook环境下怎么制作一个动态显示的进度条？

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别

用一个骰子生成1到7的随机数？

python产生服从常用概率分布的随机数