我有一列数据,缺失值特别多,占到了70%左右。
我看了数据中的缺失值如何处理这个问题,发现有个答案里提到了要先判断这个缺失是否是随机的,那么怎么判断呢?
2个回答
最直观的就是画图。
对于回归:
把整体的y的直方图画出来,再把这列当中缺失值位置对应的y的直方图画出来,看看它们是不是接近的。
对于分类:
把整体的y的每个一类的百分比算出来,再把这列当中缺失值位置所对应的y的每一类的百分比算出来,看看是不是接近。
我有一列数据,缺失值特别多,占到了70%左右。
我看了数据中的缺失值如何处理这个问题,发现有个答案里提到了要先判断这个缺失是否是随机的,那么怎么判断呢?
最直观的就是画图。
对于回归:
把整体的y的直方图画出来,再把这列当中缺失值位置对应的y的直方图画出来,看看它们是不是接近的。
对于分类:
把整体的y的每个一类的百分比算出来,再把这列当中缺失值位置所对应的y的每一类的百分比算出来,看看是不是接近。