特征相关性高的影响

  统计/机器学习 特征选择    浏览次数:7408        分享
0

如果有十个特征,其中两个维度完全相同。那么这种情况有什么影响呢?

对LR、SVM、xgb、神经网络、FM等不同的模型都有什么影响呢?

谢谢

 

求offer   2019-03-25 20:19



   2个回答 
0

简单点说,对线性回归影响比较大,因为矩阵不可逆了;对线性模型,或者说广义线性模型、逻辑回归的影响不大,但是有可能会模型系数不收敛;对树类模型影响很小,可以参考决策树、随机森林中的多重共线性问题

SofaSofa数据科学社区DS面试题库 DS面经

strong.man   2019-03-26 12:30

谢谢您的回答,请问如果是FM模型会有什么影响呢?谢谢 - 求offer   2019-03-27 20:22
0

特征相关性高往往影响的是模型的解释性和稳定性。

我觉得多重共线性对FM影响应该是不大,因为FM本质上和PCA是类似的,而PCA本身也是可以处理特征相关性的。

SofaSofa数据科学社区DS面试题库 DS面经

LiShanfei   2019-03-29 07:12



  相关讨论

相关系数很小的变量一定要删掉吗?

两个相关系数都很高的特征,怎么从中选一个

有序分类变量的相关系数

相关系数中的效率指啥?

如果x是等级变量, y是连续变量 相关分析是不是用speaman

一个连续变量和一个二元变量的相关系数怎么求?

超几何分布几何分布的关联?

Python计算两个数组的相关系数

回归中自变量和因变量的相关系数和回归系数(斜率)有什么关系?

为啥计算pearson相关系数和线性回归的coef不同呢

  随便看看

行数很多的pandas DataFrame如何在jupyter中完整显示?

线性回归或者逻辑回归中常提到的AIC和BIC是什么意思?

'numpy.ndarray' object has no attribute 'head'

logloss的取值范围是多少?一般好的分类器能达到多少?

回归问题中R方可以小于0吗?