如果一列特征有90%以上的数值都是0,这个特征还有用吗?

  统计/机器学习 监督式学习 数据预处理 特征选择    浏览次数:2541        分享
0

如果一列特征有90%以上的数值都是0,这个特征还有用吗?可以直接删掉吗?

 

newml   2019-08-22 22:59



   4个回答 
5

当然不能直接删掉,你可以只用这一个特征训练模型,看看效果如何,也可以用其他特征选择的方法,总之是不能直接删掉。

极端一点,假如你做一个binary classifcation,y就是90%是0,10%是1,现在你有一个y一模一样数值的黄金特征,难道你不用,要直接删掉?

SofaSofa数据科学社区DS面试题库 DS面经

LiShanfei   2019-08-26 05:45

3

有用,对于信用卡盗刷行为,可能某些人的某些特征百分率小于1%,但是这还是判断盗刷行为的重要feature

SofaSofa数据科学社区DS面试题库 DS面经

Proton   2019-08-26 22:03

2

如果是分类问题,要不要做个特征与target的相关系数看一下。。

如果相关度很高,那肯定是要留着的。

SofaSofa数据科学社区DS面试题库 DS面经

awpboxer   2019-10-14 16:50

1

有没有用都是数据本身决定的,没有什么万用的定理来决定一个特征用还是不用的。

SofaSofa数据科学社区DS面试题库 DS面经

u_u   2019-10-10 13:16



  相关讨论

python中如何产生交互项?

类别型变量如何分箱

如何检测判断特征的多重共线性?

在进行数值编码时出现错误,怎么解决?

SHAP可以解释二元分类模型吗?

shap值为负是什么意思,可以删掉的意思吗

不同模型下的特征重要性是不同的吗?

在分类问题中,有什么方法可以得到特征的重要性?

使用uci的社区犯罪率做回归,怎么选择因变量呢

partial dependence是什么意思?

  随便看看

Pandas怎样对dataframe中的一个时间列进行排序?

凸函数、凸集分别是什么意思?

怎么给plt.subplot加一个主标题?

python产生服从常用概率分布的随机数

统计学中的自变量和因变量分别是什么意思?