拟合数据的Z-score规范化怎么进行操作?

  统计/机器学习 回归分析 监督式学习 数据预处理 开放问题    浏览次数:4093        分享
0

对一个训练数据X=(x_1 x_2 x_3, ..., x_n)T进行Z-score规范化(零均值标准化)操作时,是令X中的每一元素

x_i=(x_i-μ)/σ ,

其中μ是x_1~x_n的均值,σ是标准差。

但是当我们进行拟合操作时,每一个X对应一个y,全部的输出y组合成为向量Y=(y_1,y_2,...,y_m)T,此时面对一个待拟合的数据集合,怎么进行Z-score操作呢?

是将每一个输入向量X分别进行Z-score操作然后Y单独也进行Z-score操作么?

还是将每一个y放入每一个X中,这样就有m个扩充的向量,然后分别对这m个向量进行Z-score操作,最后再把其中操作之后的y拎出组合成新的Y?

 

CE_PAUL   2019-02-19 16:15



   2个回答 
1

我的理解是,不是对每一个输入向量标准化,而是对每一个特征进行标准化

SofaSofa数据科学社区DS面试题库 DS面经

海米   2019-02-19 23:07

多谢多谢,是的,提问的时候没弄懂,应该是对特征进行标准化 - CE_PAUL   2019-02-20 11:28
0

哦哦,感觉理解了,其实是应该是各个维度分别进行零均值标准化,一开始的理解有误

SofaSofa数据科学社区DS面试题库 DS面经

CE_PAUL   2019-02-19 22:39



  相关讨论

数据的标准化(Z-score标准化)是否会改变训练得到的超平面系数向量?

线性回归的变量归一化的问题

训练集中重复的样本需要被删除吗?

泊松回归有哪些应用场景?

有序的分类变量的预测是回归问题还是多分类问题?

为什么说非平衡(倾斜)的数据不好?

线性回归是机器学习算法吗?

Sigmoid核函数是不是对新输入的需要预测的点的测量误差不敏感?

什么是“维数灾难”,为什么说引入核函数就避免“维数灾难”

如何对大型线性回归进行并行计算?

  随便看看

NLP里的OOV是什么意思?

pandas同时返回一个dataframe的前几行(head)和后几行(tail)

推荐系统有哪些常用的评价标准

pytorch里view(-1, 1)什么意思?

为啥Xgboost比GradientBoost好那么多?