在训练前数据处理的时候,怎么剔除异常值?
有哪些常用的手段?
2个回答
- 删除含有异常值的记录:直接将含有异常值的记录删除;
- 视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理;
- 平均值修正:可用前后两个观测值的平均值修正该异常值;
- 不处理:直接在具有异常值的数据集上进行数据挖掘;
@libinx 主要说了怎么处理异常值
我说下怎么发现异常值,一般要么是根据逻辑、常识,要么是根据实际数据分布
比如年龄作为特征一般在0到120之间,如果超过这个范围了肯定是异常了
根据数据分布的话通常是用IQR来判断,如果一个数和均值的差超过1.5倍的IQR了,就算是异常
SofaSofa数据科学社区DS面试题库 DS面经