在回归里看到了方差膨胀因子,方差膨胀因子怎么计算?具体有什么用?
2个回答
方差膨胀因子(Variance Inflation Factor,VIF)是用来检测回归模型中自变量的多重共线性(Multi-Colinearity)的。
我们可以用相关系数来比较一个自变量与另一个自变量的相关性。如果我们想判断一个自变量与其他剩下所有的自变量的多重共线性,我们就可以用VIF。
比如我们一共有5个自变量,$X_1, X_2, X_3, X_4, X_5$。我们把$X_1$当作观测值,把剩下的变量$X_2, X_3, X_4, X_5$当作自变量,进行线性回归。
$$X_1 = c_{1,0}+c_{1,2}X_2+c_{1,3}X_3+c_{1,4}X_4+c_{1,5}X_5+e_1$$
我们用$R^2_1$上表示面这个回归的$R^2$。$X_1$的方差膨胀因子
$$VIF_1=\frac{1}{1-R^2_1},$$
相应地,变量$X_k$的方差膨胀因子
$$VIF_k=\frac{1}{1-R^2_k},$$
其中$R^2_k$是把$X_k$当作观测值,把剩下的变量当作自变量的回归的$R^2$。
我们知道$R^2$越接近1,拟合越好。这里$VIF_k$等于1说明没有共线性,越接近1,$X_k$的多重共线性越小。$VIF_k$越大,$X_k$与其他变量的多重共线性越大。
原来如此,谢谢!
-
Pokemon
2017-04-12 10:39
关于上面的说的解答有一个问题,如果说 Rk2 越接近1 代表拟合的越好,那不是越说明其他的变量可以更好的线性替代第k个变量么?那难道不应该是第k个变量的多重共线性更严重么?这样看来岂不是VIF越大(R2越小)反而应该共线性越小么?(因为说明其他变量拟合该变量的效果不好,不能被线性替代),谁来解释一下?
SofaSofa数据科学社区DS面试题库 DS面经
误人子弟了,之前漏掉1-了。现在修改过了。谢谢指正!
-
黄前志
2017-07-31 22:13