什么是K-Modes（K众数）聚类法？-SofaSofa

最近听说了一个K-Modes聚类法，听说是基于K-Means在分类特征上改良的聚类算法。但是没有找到相关的资料，有知道算法的具体细节的吗？

谢谢！

机器小白 2017-04-07 11:07

1个回答

我对K-Modes Clustering（K众数聚类）还算熟悉。我可以讲一讲。

K-Modes和K-Means非常类似。

相同点：我们在算法开始前自己设定K，也就是聚类的个数；然后再自己设定K个初始中心点，所有样本点被聚类到离自己最近的那个中心点；根据每个聚类，重新计算中心点，所有样本点再重新被聚类。如此往复，直到每个样本点的归属不再改变或者达到某个预设的收敛条件。

不同点：K-Means是用每个聚类中的均值（mean）做中心点，K-Modes是用每个聚类中的众数（mode）做中心点。距离的定义也不同，通常K-Means较多使用欧式距离，K-Modes一般是汉明距离，也就是对于每个特征来说，如果不同记为1，相同则为0。

我可以举个例子。比如我们有10款手机需要聚类，我们关于这10款手机的数据都是分类数据（categorical）。

手机国家人群颜色

1 中青年白

2 日青年黑

3 中青年蓝

4 中青年黑

5 日青年白

6 日中年黑

7 美中年蓝

8 美中年白

9 中中年黑

10 美中年黑

假定我们选择聚类的数量K=2，初始点为手机1（中，青年，白）和手机6（日，中年，黑）。

下面开始计算距离。

手机与手机1的距离与手机6的距离

2 2 1

3 1 3

4 1 2

5 1 2

7 3 2

8 2 2

9 2 1

10 3 1

对于手机8来说，出现了打平，我们可以随机选择一个，假定手机8属于手机1的聚类。

聚类1：手机1, 3, 4, 5, 8

手机国家人群颜色

1 中青年白

3 中青年蓝

4 中青年黑

5 日青年白

8 美中年白

我们下面计算聚类1的新中心。

“国家”，中国三次，日本美国各一次，国家的众数是中国。

“人群”，青年四次，中年一次，众数是青年。

“颜色”，白色是众数。

所以聚类1的中心依然是（中，青年，白）。

聚类2：手机2, 6, 7, 9, 10

手机国家人群颜色

2 日青年黑

6 日中年黑

7 美中年蓝

9 中中年黑

10 美中年黑

同样地，我们可以计算这个聚类的中心点是（日，中年，黑）。

在这个例子中，比较巧合，经过一次迭代后，中心并没有改变，所以聚类就完成了。

也有时候，聚类的新的中心点不一定在数据集中出现，这个也是可能的，我们依旧会使用这个中心点。

SofaSofa数据科学社区 DS面试题库 DS面经

高代兄 2017-04-16 05:20

如果我们把所有的categorical feature都先编码，然后再用KMeans，这样会有区别吗？ - MeganC 2017-04-17 10:33

好问题！是的，有区别的。很多地方都有区别，OneHotEncoding之后，我们会有些binary的dummy variable，所以这些列的均值就是在0到1之间，然后这对dummy variable是没有意义的。此外，如果有个categorical feature有1000个level，有的categorical feature只有3个level，做了OneHotEncoding之后，这两个feature的权重就相当于变成了1000比3，严重失衡了。最重要的是，均值和众数本身也不一样。正如KMeans和KMedian的结果也会不同，一个道理。 - 高代兄 2017-04-19 14:28

什么是K-Modes（K众数）聚类法？

Warning

1个回答

Warning