数据的标准化(Z-score标准化)是否会改变训练得到的超平面系数向量?

  统计/机器学习 回归分析 监督式学习 数据预处理    浏览次数:4835        分享
0

在进行回归分析时,有输入训练数据集 和输出 训练数据集 Y ,需要学习得到回归超平面的系数向量 x ,得到关系:

Ax=Y        A:M×N,x:N×1,Y:M×1

一般需要对训练数据进行Z-score标准化,即

A(i,j)=[A(i,j)-mean(A(:,j))]/std(A:,j)

Y(i)=[Y(i)-mean(Y)]/std(Y)


请问这样的Z-score操作会对超平面的系数向量 x 的结果产生影响么即若我们不进行Z-score标准化操作的话,得到的 x 的值是否会和数据进行了Z-score操作之后的结果不一样Z-score标准化是否只是对数据点在其空间内进行了平移,使其回归超平面的位置经过原点,而并不会改变得到的回归超平面的系数向量即“斜率”的大小呢

 

CE_PAUL   2019-02-26 11:20



   1个回答 
1

当然会改变斜率的。

你可以就想想一维的情况:

$x\sim \mathcal N(3, 1^2)$,假设它们完美拟合回归公式为$y=2x+2$,那么$y \sim \mathcal N(8, 2^2)$

假如我们同时对$x$和$y$进行标准化,得到

$\hat x\sim \mathcal N(0, 1)$以及$\hat y\sim \mathcal N(0, 1)$,此时回归方程为$\hat y = \hat x$。不仅经过原点,而且斜率也变了。

(题主可以试着用$\LaTeX$,现在题目看起来有点累)

SofaSofa数据科学社区DS面试题库 DS面经

strong.man   2019-02-26 14:05

好的谢谢答主,我学习一下LaTeX。ummm,还希望追问一下,就是既然改变了斜率,这样得到的结果在进行预测的时候可用性是不是受到了限制?或者所以说在进行预测时,输入变量和输出变量都要和训练点进行Z-score标准化之后才可以用于预测,得到的预测结果(即拟合量) 也需要进行逆操作才能得到真实的预测值? - CE_PAUL   2019-02-26 16:57
是的,输入输出都要经过同样的变换。得到预测结果也需要转换回去才能得到最终预测值。 - strong.man   2019-02-26 22:41
好的,多谢多谢 - CE_PAUL   2019-02-27 12:34


  相关讨论

线性回归的变量归一化的问题

对进行回归分析之前,如何处理不同类型的变量?

特征归一化后的多项式回归拟合结果

虚拟变量能否标准化?

statsmodels里的ols怎么处理分类变量?

拟合数据的Z-score规范化怎么进行操作?

请问 hard tanh 输出的结果是有界的吗?

文本或者语音里的数字识别是分类还是回归?

证明在线性回归中,如果样本数量N小于特征数量d+1,则XXT的秩最大为N?

逻辑回归最终的所有结果都是0的原因

  随便看看

抛的硬币直到连续出现两次正面为止,平均要扔多少次

pandas.DataFrame的index重新排列(从0开始)

如果样本不是正态分布,还能用t-test或者z-test吗?

决策树、随机森林中的多重共线性问题

如何复制一个pandas DataFrame