我自己除了直接删掉缺失值对应的行以为,常用的就是用该列的平均值代替,但是总感觉这样不是最好的办法。请问大家还有别的好办法吗?
2个回答
从实际角度出发,首先要了解缺失的原因;其次,看缺失值和预测值的联合分布,看看其中有没有什么蹊跷。
从处理的角度来说,如题主说到的,
- 可以用均值,也可以用众数,中位数;
- 可以按类的均值(众数、中位数)补全,比如说数据中A列中的数值有缺失,B列是一个categorical variable,你可以按照B列中的类别,用类别的均值对A列中的数据补全。
我只是抛砖引玉。期待更好的回答!