在进行回归分析时,有输入训练数据集 A 和输出 训练数据集 Y ,需要学习得到回归超平面的系数向量 x ,得到关系:
Ax=Y A:M×N,x:N×1,Y:M×1
一般需要对训练数据进行Z-score标准化,即
A(i,j)=[A(i,j)-mean(A(:,j))]/std(A:,j)
Y(i)=[Y(i)-mean(Y)]/std(Y)
请问这样的Z-score操作会对超平面的系数向量 x 的结果产生影响么?即若我们不进行Z-score标准化操作的话,得到的 x 的值是否会和数据进行了Z-score操作之后的结果不一样?Z-score标准化是否只是对数据点在其空间内进行了平移,使其回归超平面的位置经过原点,而并不会改变得到的回归超平面的系数向量即“斜率”的大小呢?
1个回答
当然会改变斜率的。
你可以就想想一维的情况:
$x\sim \mathcal N(3, 1^2)$,假设它们完美拟合回归公式为$y=2x+2$,那么$y \sim \mathcal N(8, 2^2)$
假如我们同时对$x$和$y$进行标准化,得到
$\hat x\sim \mathcal N(0, 1)$以及$\hat y\sim \mathcal N(0, 1)$,此时回归方程为$\hat y = \hat x$。不仅经过原点,而且斜率也变了。
(题主可以试着用$\LaTeX$,现在题目看起来有点累)
SofaSofa数据科学社区DS面试题库 DS面经
好的谢谢答主,我学习一下LaTeX。ummm,还希望追问一下,就是既然改变了斜率,这样得到的结果在进行预测的时候可用性是不是受到了限制?或者所以说在进行预测时,输入变量和输出变量都要和训练点进行Z-score标准化之后才可以用于预测,得到的预测结果(即拟合量) 也需要进行逆操作才能得到真实的预测值?
-
CE_PAUL
2019-02-26 16:57
是的,输入输出都要经过同样的变换。得到预测结果也需要转换回去才能得到最终预测值。
-
strong.man
2019-02-26 22:41
好的,多谢多谢
-
CE_PAUL
2019-02-27 12:34