由于特定问题的限制,这个线性回归模型的截距(常数项)必须为0,那么这么做会造成什么问题吗?
这个情况下,这个估计是有偏的还是无偏的呢?此外,还有什么顾忌呢?
2个回答
参考Covariance_matrix,线性回归的假设是输入$X$和输出$Y$是联合正态分布。$X$是列向量,每一列为一个数据点。
$ \mu_{X,Y} = \begin{pmatrix} \mu_{X} \\ \mu_{Y} \end{pmatrix} $
$ \Sigma_{X,Y} = \begin{pmatrix} \Sigma_{XX} & \Sigma_{XY} \\ \Sigma_{YX} & \Sigma_{YY} \end{pmatrix} $
线性回归是求conditional mean
$\mu_{Y|X}=\mu_Y+\Sigma_{YX}\Sigma_{XX}^{-1}(X-\mu_X)$
$=\Sigma_{YX}\Sigma_{XX}^{-1}X + (\mu_Y-\Sigma_{YX}\Sigma_{XX}^{-1}\mu_X)$
$=wX+b$
其中$w=\Sigma_{YX}\Sigma_{XX}^{-1}$,
$b=\mu_Y-w\mu_X$
如果要截距$b=0$,一个充分条件是$\mu_Y=0$,$\mu_X=0$。一般$X$要作normalization,可以保证$\mu_X=0$,还需要让$\mu_Y=0$。几何上意义是通过对原始数据$X,Y$的平移变换(Translation),让拟合的直线过坐标的原点。
如果$X,Y$没有减去均值,而且强行令$b=0$ ,则偏差为$\mu_Y-w\mu_X$
SofaSofa数据科学社区DS面试题库 DS面经我觉得你不应该人为的限制截距为0。
首先,如果常数项为0,那么它本质上已经不是一个正确的线性回归了。
其次,如果它本身的特征决定了常数项是0,应该不是由人为所决定,而是通过数据学习得到的。
SofaSofa数据科学社区DS面试题库 DS面经