Loading [MathJax]/jax/output/HTML-CSS/jax.js

训练样本中每个维度是否独立对回归结果的影响

  统计/机器学习 回归分析 特征选择 开放问题    浏览次数:5944        分享
0

对于一个回归问题,使用最小二乘/岭回归/支持向量回归等回归方式,有一个样本的群用于训练,其中一个样本为Xm=(Z1,Z2,,Zn,Ym),    其中(Z1,Z2,,Zn)Xm的输入,Ym为输出。问题是,如果输入Z1,Z2,,Zn之间不是相互独立的,即输入向量的各维度之间有线性或非线性相关关系,这样训练得到的结果可信么?或者说,训练样本中各维度之间的独立性对回归结果的会有怎样的影响呢?

 

CE_PAUL   2018-10-18 08:52



   2个回答 
3

你说的这个叫做多重共线性。一般可以用Pearson相关系数或者方差膨胀因子法来检验。

对于最小二乘回归,多重共线性最直接的影响就是会导致XTX不可逆,无法求解。

如果通过数值方法求解,得到的系数的解释性不会更好,而且方差会比较大。这一点对于你提到的模型算是共性。

在存在多重共线性的情况下,Lasso要比Ridge好。

SofaSofa数据科学社区DS面试题库 DS面经

zl_pku   2018-10-18 09:35

谢谢! - CE_PAUL   2018-10-19 18:30
2

最小二乘回归已经考虑了输入随机变量间相关的问题。令所有都为列向量,训练输入Xd×n矩阵,训练输出y1×n,测试输入Xtestd×m矩阵。对X做SVD有X=USVT

^ytestT=XTtest(XXT)1XyT

=XTtest(USVTVSUT)1XyT

=XTtestUS1(XTUS1)TyT

Z=S1UTX=ΦX,则

^ytestT=ZTtestZyT

=ZTtestΣZy

ZX在新特征空间(X 的clomun space)的坐标,U是去相关性,S1是做Z的标准化。因为基向量UiUj相互垂直,所以新特征Z相互独立,corr(Zi,Zj)=0ΣZy是最小二乘模型真正学习到的Zy之间的相似矩阵,也就是Zy之间的线性转化矩阵。

思路是:自变量相关,很难研究自变量X和因变量y独立线性关系。把自变量X转换为独立变量Z,并学习Zy的线性转换关系ΣZy。有点像输入图像->FFT->Filtering>IFFT->输出图像的套路。(其实Xiy的独立的相关性可以用partial correlation表示。)

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-10-18 13:17

十分谢谢! - CE_PAUL   2018-10-19 18:44


  相关讨论

通过SVD分解已经可以得到AX=Y解的稳定性的度量为什么还需要定义条件数来说明?

LBP算法中解对应的条件数怎么计算?

AIC可以是负数吗?

做多元线性回归的时候,怎么快速排除掉没有用的特征?

向前逐步选择法和向后逐步选择法的结果是一样的吗?

两个特征整体的permutation importance

Sigmoid核函数是不是对新输入的需要预测的点的测量误差不敏感?

y取值有上下界限的回归问题

线性回归是机器学习算法吗?

什么是“维数灾难”,为什么说引入核函数就避免“维数灾难”

  随便看看

抛的硬币直到连续出现两次正面为止,平均要扔多少次

matplotlib一个画板上多个图叠加,如何决定图层上下?

为什么图的拉普拉斯矩阵的最小特征值一定是0?

python或者numpy求数值的中位数、四分位数

不用洛必达法则证明sin x比上x的极限是1