特征归一化对K Means有影响吗?是好的影响还是不好的影响?
3个回答
K均值中计算距离的方法应该可以有很多,如果以常用的欧氏距离作为计算距离的方法的话,归一化是好的。这样每个特性的重要性就会得到统一。
比如你想用K均值给动物分类,假如把重量(单位:克)作为一个特征,由于其数值和方差非常大(比如大象和松鼠),在计算距离的时候其它特征影响就显得就无关紧要。变成了主要按照重量来分类了。
有的距离计算方法可以忽略量纲的问题,比如余弦距离。这时候归一化应该没什么影响。
SofaSofa数据科学社区DS面试题库 DS面经简单来说,特征是否缩放须谨慎,最好在缩放前理解每个特征的含义(正如s3040608090所讲的体重的例子)。
至于影响可好可坏,要视整个上下文而定。
补充一句,基于距离的模型都会有“该不该缩放/标准化”的问题,比如说kNN。
SofaSofa数据科学社区DS面试题库 DS面经对特征归一化当然会对聚类结果产生影响
比如下图中,如果我们进行2-Means,A,B,C是一个聚类,D和E一个聚类
下图中,我们对x轴进行了归一化,然后2-Means,A和B是一个聚类,C,D和E是一个聚类。
所以归一化对聚类的结果是有影响的。