对于一个回归问题,使用最小二乘/岭回归/支持向量回归等回归方式,有一个样本的群用于训练,其中一个样本为Xm=(Z1,Z2,⋯,Zn,Ym), 其中(Z1,Z2,⋯,Zn)为Xm的输入,Ym为输出。问题是,如果输入Z1,Z2,⋯,Zn之间不是相互独立的,即输入向量的各维度之间有线性或非线性相关关系,这样训练得到的结果可信么?或者说,训练样本中各维度之间的独立性对回归结果的会有怎样的影响呢?
2个回答
你说的这个叫做多重共线性。一般可以用Pearson相关系数或者方差膨胀因子法来检验。
对于最小二乘回归,多重共线性最直接的影响就是会导致XTX不可逆,无法求解。
如果通过数值方法求解,得到的系数的解释性不会更好,而且方差会比较大。这一点对于你提到的模型算是共性。
在存在多重共线性的情况下,Lasso要比Ridge好。
SofaSofa数据科学社区DS面试题库 DS面经最小二乘回归已经考虑了输入随机变量间相关的问题。令所有都为列向量,训练输入X是d×n矩阵,训练输出y是1×n,测试输入Xtest是d×m矩阵。对X做SVD有X=USVT。
^ytestT=XTtest(XXT)−1XyT
=XTtest(USVTVSUT)−1XyT
=XTtestUS−1(XTUS−1)TyT
令Z=S−1UTX=ΦX,则
^ytestT=ZTtestZyT
=ZTtestΣZy
Z是X在新特征空间(X 的clomun space)的坐标,U是去相关性,S−1是做Z的标准化。因为基向量Ui∗与Uj∗相互垂直,所以新特征Z相互独立,corr(Zi,Zj)=0。ΣZy是最小二乘模型真正学习到的Z和y之间的相似矩阵,也就是Z和y之间的线性转化矩阵。
思路是:自变量相关,很难研究自变量X和因变量y间独立线性关系。把自变量X转换为独立变量Z,并学习Z和y的线性转换关系ΣZy。有点像输入图像->FFT->Filtering>IFFT->输出图像的套路。(其实Xi和y的独立的相关性可以用partial correlation表示。)
SofaSofa数据科学社区DS面试题库 DS面经