在做特征选择的时候,我们计算目标值和每个变量的相关系数,如果相关系数小,我们就可以认为这个变量对于预测y没有什么用,所以可以把它删掉,这样做有问题吗?
3个回答
相关系数是用来表示线性关系的,如果是线性模型,相关系数很小的变量的确不会显著;对于广义线性模型的话就不一定了;对于非线性模型,比如决策树,即使相关系数为0的变量,也可能很有用。
SofaSofa数据科学社区DS面试题库 DS面经不可以简单是删除相关性小的变量哦。有两个原因
第一:看你选择的是什么相关性分析,皮尔森系数是线性的,斯皮尔曼等级是更通用的。如果你用皮尔森算出来很小,只能说明没有线性关系,有可能也很相关哦。
第二:例如房价和经纬度的关系,即使是用斯皮尔曼等级相关也会很小,但是经纬度却是很重要的信息
SofaSofa数据科学社区DS面试题库 DS面经我觉得这样做不是太好
“多小算是小”这个问题很难决定
其次就是相关系数只是线性相关而已,非线性的怎么办?
有时候很多变量都相关性不高,但是它们一起作用可能效果明显,全都删掉明显就不好了
SofaSofa数据科学社区DS面试题库 DS面经