有没有对聚类成员个数有限制的聚类算法?

  统计/机器学习 无监督学习 开放问题    浏览次数:6994        分享
1

我现在有个聚类问题,把数据点聚成5类,可是常常有一两簇,特别小,数据点很少,只占到了0.1%和0.5%。

有没有对聚类成员个数有限制的聚类算法?

就是说聚类之后,每簇的大小差不多,成员个数差不多?

谢谢!



 

Marvin_THU   2018-02-01 08:04



   3个回答 
6

有个“同大小K Means”算法, equai-szie K-Means或者same size K Means。这个聚类算法出来的结果是K个聚类,每个聚类的成员个数是一样多的。

它的基本思想还是K Means,只不过有个聚类修正:

一个数据点$A$,如果距离聚类$C$的中心点$M_C$最近,并且聚类$C$目前的成员个数还没有满,那么$A$就会被归到$C$中;

如果$C$满了(也就是成员个数达到了$N/K$),那么$A$就会被分配到离$A$第二近的那个聚类;

如果第二近的聚类也满了,就分配到第三近的,以此类推。

SofaSofa数据科学社区DS面试题库 DS面经

abuu   2018-02-11 19:43

谢谢! - Marvin_THU   2018-02-17 15:06
请问这个算法会不会存在局部最优,总有类会有分散的情况 - shmljk   2019-12-09 15:22
4

感觉这个问题还是一个正在被研究的方向,近年来每年都是有这方面的论文的。

比如

On Controlling the Size of Clusters in Probabilistic Clustering

Data Clustering with Cluster Size Constraints Using a Modified k-means Algorithm

以及这篇博文Clustering into same size clusters

SofaSofa数据科学社区DS面试题库 DS面经

数据科学小K   2019-02-22 11:52

1

自己对loss function加个正则项试试?

比如cluster size的方差作为正则项?

SofaSofa数据科学社区DS面试题库 DS面经

宽宽   2018-02-13 13:04

这个想法很惊奇,有参考文献不? - Marvin_THU   2018-02-17 15:05


  相关讨论

HDBSCAN和DBSCAN这两种聚类方法有什么区别?

一维的数据可以做聚类吗?

k均值有用到EM的思想吗?

什么是K-Modes(K众数)聚类法?

层次聚类中的Ward's method是什么意思

dbscan 中的参数值如何确定?

软聚类,硬聚类?

聚类问题可以用stacking model的方法吗?

谱聚类中的相似矩阵是怎么定义的?

层次聚类里的linkage是什么意思?

  随便看看

sklearn训练classifier的时候报错Unknown label type

对连续特征一定要进行分箱处理吗?

seaborn如何显示图?

plt.bar怎么设置每个bar的颜色?

xgboost怎么调参?