有没有对聚类成员个数有限制的聚类算法？-SofaSofa

我现在有个聚类问题，把数据点聚成5类，可是常常有一两簇，特别小，数据点很少，只占到了0.1%和0.5%。

有没有对聚类成员个数有限制的聚类算法？

就是说聚类之后，每簇的大小差不多，成员个数差不多？

谢谢！

Marvin_THU 2018-02-01 08:04

有个“同大小K Means”算法， equai-szie K-Means或者same size K Means。这个聚类算法出来的结果是K个聚类，每个聚类的成员个数是一样多的。

它的基本思想还是K Means，只不过有个聚类修正：

一个数据点$A$，如果距离聚类$C$的中心点$M_C$最近，并且聚类$C$目前的成员个数还没有满，那么$A$就会被归到$C$中；

如果$C$满了（也就是成员个数达到了$N/K$），那么$A$就会被分配到离$A$第二近的那个聚类；

如果第二近的聚类也满了，就分配到第三近的，以此类推。

abuu 2018-02-11 19:43

谢谢！ - Marvin_THU 2018-02-17 15:06

请问这个算法会不会存在局部最优，总有类会有分散的情况 - shmljk 2019-12-09 15:22

感觉这个问题还是一个正在被研究的方向，近年来每年都是有这方面的论文的。

比如

数据科学小K 2019-02-22 11:52

自己对loss function加个正则项试试？

比如cluster size的方差作为正则项？

宽宽 2018-02-13 13:04

这个想法很惊奇，有参考文献不？ - Marvin_THU 2018-02-17 15:05

有没有对聚类成员个数有限制的聚类算法？