怎么理解回归中的库克距离(Cook's distance)?
1个回答
在线性回归中,库克距离(Cook's Distance)描述了单个样本对整个回归模型的影响程度。库克距离越大,说明影响越大。库克距离也可以用来检测异常点。
在最理想的情况下,每个样本对模型的影响是相等的。如某个样本的库克距离非常大,我们可以视为这个样本是异常点(outlier)。通常来说,若库克距离大于1,我们就认为这个点是异常点。也有人把这个阈值设置为$4/n$。
----------如果想知道具体的计算公式,欢迎继续阅读----------
在线性回归中,
$$y = X\beta + \epsilon,$$
$y\in\mathbb{R}^n$, $X\in\mathbb{R}^{n\times p}$, $\beta\in\mathbb{R}^p$, $\epsilon\in \mathbb{R}^{p}$。 这里考虑的是$n$个观测值的样本,自变量的数量为$p$,$\epsilon$是误差向量。
我们知道这个线性回归的投影矩阵$H=X(X^TX)^{-1}X^T$,$h_i=x_i^T(X^TX)^{-1}x_i$是矩阵$H$对角线上的第$i$个元素。第$i$个样本的库克距离
$$D_i=\frac{\epsilon_i^2 h_i}{s^2 p (1-h_i)^2},$$
其中$s^2$是这个模型的均方误差MSE。
SofaSofa数据科学社区DS面试题库 DS面经