我现在有个聚类问题,把数据点聚成5类,可是常常有一两簇,特别小,数据点很少,只占到了0.1%和0.5%。
有没有对聚类成员个数有限制的聚类算法?
就是说聚类之后,每簇的大小差不多,成员个数差不多?
谢谢!
3个回答
有个“同大小K Means”算法, equai-szie K-Means或者same size K Means。这个聚类算法出来的结果是K个聚类,每个聚类的成员个数是一样多的。
它的基本思想还是K Means,只不过有个聚类修正:
一个数据点$A$,如果距离聚类$C$的中心点$M_C$最近,并且聚类$C$目前的成员个数还没有满,那么$A$就会被归到$C$中;
如果$C$满了(也就是成员个数达到了$N/K$),那么$A$就会被分配到离$A$第二近的那个聚类;
如果第二近的聚类也满了,就分配到第三近的,以此类推。
SofaSofa数据科学社区DS面试题库 DS面经
谢谢!
-
Marvin_THU
2018-02-17 15:06
请问这个算法会不会存在局部最优,总有类会有分散的情况
-
shmljk
2019-12-09 15:22
自己对loss function加个正则项试试?
比如cluster size的方差作为正则项?
SofaSofa数据科学社区DS面试题库 DS面经
这个想法很惊奇,有参考文献不?
-
Marvin_THU
2018-02-17 15:05