相关系数很小的变量一定要删掉吗?

  统计/机器学习 监督式学习 数据预处理 特征选择    浏览次数:8983        分享
0

在做特征选择的时候,我们计算目标值和每个变量的相关系数,如果相关系数小,我们就可以认为这个变量对于预测y没有什么用,所以可以把它删掉,这样做有问题吗?

 

vivian_o   2018-11-03 13:02



   3个回答 
7

相关系数是用来表示线性关系的,如果是线性模型,相关系数很小的变量的确不会显著;对于广义线性模型的话就不一定了;对于非线性模型,比如决策树,即使相关系数为0的变量,也可能很有用。

SofaSofa数据科学社区DS面试题库 DS面经

zl_pku   2018-12-05 23:15

4

不可以简单是删除相关性小的变量哦。有两个原因

第一:看你选择的是什么相关性分析,皮尔森系数是线性的,斯皮尔曼等级是更通用的。如果你用皮尔森算出来很小,只能说明没有线性关系,有可能也很相关哦。

第二:例如房价和经纬度的关系,即使是用斯皮尔曼等级相关也会很小,但是经纬度却是很重要的信息

SofaSofa数据科学社区DS面试题库 DS面经

wqtang   2019-02-03 23:21

3

我觉得这样做不是太好

“多小算是小”这个问题很难决定

其次就是相关系数只是线性相关而已,非线性的怎么办?

有时候很多变量都相关性不高,但是它们一起作用可能效果明显,全都删掉明显就不好了

SofaSofa数据科学社区DS面试题库 DS面经

1point3acres   2019-01-27 16:12



  相关讨论

特征相关性高的影响

两个相关系数都很高的特征,怎么从中选一个

超几何分布几何分布的关联?

相关系数中的效率指啥?

Python计算两个数组的相关系数

一个连续变量和一个二元变量的相关系数怎么求?

如果x是等级变量, y是连续变量 相关分析是不是用speaman

有序分类变量的相关系数

回归中自变量和因变量的相关系数和回归系数(斜率)有什么关系?

关于Python中 theano的相关问题

  随便看看

matplotlib一个画板上多个图叠加,如何决定图层上下?

怎么在matplotlib.pyplot的plot上加上文字?

怎么对pandas dataframe的列求众数

sota model是什么意思?

print里的"%.2f"是什么意思?