怎么理解库克距离(Cook's distance)?-SofaSofa

怎么理解回归中的库克距离(Cook's distance)?

Pokemon 2017-04-21 23:04

在线性回归中，库克距离(Cook's Distance)描述了单个样本对整个回归模型的影响程度。库克距离越大，说明影响越大。库克距离也可以用来检测异常点。

在最理想的情况下，每个样本对模型的影响是相等的。如某个样本的库克距离非常大，我们可以视为这个样本是异常点(outlier)。通常来说，若库克距离大于1，我们就认为这个点是异常点。也有人把这个阈值设置为$4/n$。

----------如果想知道具体的计算公式，欢迎继续阅读----------

在线性回归中，

$$y = X\beta + \epsilon,$$

$y\in\mathbb{R}^n$, $X\in\mathbb{R}^{n\times p}$, $\beta\in\mathbb{R}^p$, $\epsilon\in \mathbb{R}^{p}$。这里考虑的是$n$个观测值的样本，自变量的数量为$p$，$\epsilon$是误差向量。

我们知道这个线性回归的投影矩阵$H=X(X^TX)^{-1}X^T$，$h_i=x_i^T(X^TX)^{-1}x_i$是矩阵$H$对角线上的第$i$个元素。第$i$个样本的库克距离

$$D_i=\frac{\epsilon_i^2 h_i}{s^2 p (1-h_i)^2},$$

其中$s^2$是这个模型的均方误差MSE。

高代兄 2017-04-24 07:27

怎么理解库克距离(Cook's distance)?