关于方差膨胀因子(VIF)的问题-SofaSofa

在回归里看到了方差膨胀因子，方差膨胀因子怎么计算？具体有什么用？

Pokemon 2017-04-04 23:19

2个回答

方差膨胀因子(Variance Inflation Factor，VIF)是用来检测回归模型中自变量的多重共线性(Multi-Colinearity)的。

我们可以用相关系数来比较一个自变量与另一个自变量的相关性。如果我们想判断一个自变量与其他剩下所有的自变量的多重共线性，我们就可以用VIF。

比如我们一共有5个自变量，$X_1, X_2, X_3, X_4, X_5$。我们把$X_1$当作观测值，把剩下的变量$X_2, X_3, X_4, X_5$当作自变量，进行线性回归。

$$X_1 = c_{1,0}+c_{1,2}X_2+c_{1,3}X_3+c_{1,4}X_4+c_{1,5}X_5+e_1$$

我们用$R^2_1$上表示面这个回归的$R^2$。$X_1$的方差膨胀因子

$$VIF_1=\frac{1}{1-R^2_1},$$

相应地，变量$X_k$的方差膨胀因子

$$VIF_k=\frac{1}{1-R^2_k},$$

其中$R^2_k$是把$X_k$当作观测值，把剩下的变量当作自变量的回归的$R^2$。

我们知道$R^2$越接近1，拟合越好。这里$VIF_k$等于1说明没有共线性，越接近1，$X_k$的多重共线性越小。$VIF_k$越大，$X_k$与其他变量的多重共线性越大。

SofaSofa数据科学社区 DS面试题库 DS面经

黄前志 2017-04-11 10:30

原来如此，谢谢！ - Pokemon 2017-04-12 10:39

关于上面的说的解答有一个问题，如果说 Rk2 越接近1 代表拟合的越好，那不是越说明其他的变量可以更好的线性替代第k个变量么？那难道不应该是第k个变量的多重共线性更严重么？这样看来岂不是VIF越大(R2越小）反而应该共线性越小么？（因为说明其他变量拟合该变量的效果不好，不能被线性替代），谁来解释一下？

SofaSofa数据科学社区 DS面试题库 DS面经

sz080212 2017-07-31 16:28

误人子弟了，之前漏掉1-了。现在修改过了。谢谢指正！ - 黄前志 2017-07-31 22:13

关于方差膨胀因子(VIF)的问题

Warning

2个回答

Warning

Warning