关于方差膨胀因子(VIF)的问题

  统计/机器学习 回归分析 描述性统计    浏览次数:19111        分享
7

在回归里看到了方差膨胀因子,方差膨胀因子怎么计算?具体有什么用?

 

Pokemon   2017-04-04 23:19



   2个回答 
18

方差膨胀因子(Variance Inflation Factor,VIF)是用来检测回归模型中自变量的多重共线性(Multi-Colinearity)的。

我们可以用相关系数来比较一个自变量与另一个自变量的相关性。如果我们想判断一个自变量与其他剩下所有的自变量的多重共线性,我们就可以用VIF。


比如我们一共有5个自变量,$X_1, X_2, X_3, X_4, X_5$。我们把$X_1$当作观测值,把剩下的变量$X_2, X_3, X_4, X_5$当作自变量,进行线性回归。

$$X_1 = c_{1,0}+c_{1,2}X_2+c_{1,3}X_3+c_{1,4}X_4+c_{1,5}X_5+e_1$$

我们用$R^2_1$上表示面这个回归的$R^2$。$X_1$的方差膨胀因子

$$VIF_1=\frac{1}{1-R^2_1},$$

相应地,变量$X_k$的方差膨胀因子

$$VIF_k=\frac{1}{1-R^2_k},$$

其中$R^2_k$是把$X_k$当作观测值,把剩下的变量当作自变量的回归的$R^2$。

我们知道$R^2$越接近1,拟合越好。这里$VIF_k$等于1说明没有共线性,越接近1,$X_k$的多重共线性越小。$VIF_k$越大,$X_k$与其他变量的多重共线性越大。



SofaSofa数据科学社区DS面试题库 DS面经

黄前志   2017-04-11 10:30

原来如此,谢谢! - Pokemon   2017-04-12 10:39
2

关于上面的说的解答有一个问题,如果说 Rk2  越接近1 代表拟合的越好,那不是越说明其他的变量可以更好的线性替代第k个变量么?那难道不应该是第k个变量的多重共线性更严重么?这样看来岂不是VIF越大(R2越小)反而应该共线性越小么?(因为说明其他变量拟合该变量的效果不好,不能被线性替代),谁来解释一下?

SofaSofa数据科学社区DS面试题库 DS面经

sz080212   2017-07-31 16:28

误人子弟了,之前漏掉1-了。现在修改过了。谢谢指正! - 黄前志   2017-07-31 22:13


  相关讨论

线性回归的容忍度Tolerance是什么意思?

怎么理解库克距离(Cook's distance)?

估计标准差的标准差?

统计学中的自变量和因变量分别是什么意思?

标准误和标准差有什么区别?

为什么样本方差是除以n-1

为什么说中位数比平均数更稳健?

Median Absolute Deviation的定义是什么?

统计里的IQR是什么意思?

python里怎么计算两个向量的余弦相似?

  随便看看

AB实验的哈希分桶技术是什么意思?

seaborn.distplot直方图的y轴的数值是什么意思?

micro和macro F1 score分别是什么意思?

numpy里矩阵乘法matmul,@和dot的区别?

'str' object has no attribute 'decode' 代码运行时有错误呢?请高手帮忙解决