关于online KMeans步骤中成员更新分类的问题?

  统计/机器学习 无监督学习    浏览次数:4752        分享
0

我之前问了K-Means实现mini-batch online learning的原理是什么?

我对其中一个步骤还是有一些疑问

第13步是更新聚类的中心点。但是如果中心点坐标更新之后,它不再是这个聚类中原来一些成员的最近中心了,那么是否应该剔除掉这些成员,然后重新计算中心点。因为那些成员会被分配到其他聚类,是否也要重新计算所有聚类的中心点?

 

lllinnn   2018-10-22 04:26



   1个回答 
4

不需要剔除cluster里的成员,也不需要计算每个点新的cluster label。只有在第7步里计算当前batch里点的临时culster label$d[x]$,在第10步里用完$d[x]$后就不会再用,真正全局都记录和更新的信息是中心点$c$和每个cluster的点数$v$。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-10-23 23:34

如果不对过去的点进行更新的话,和传统的kmeans应该不完全等价 - sasa   2018-10-24 01:38
对,和传统kmeans不等价。而且传统kmeans本来就没有唯一最优解,不同起始的中心点就有不同的解。这算法相当于对原数据resample,并使用类似sgd的更新策略。 我认为kmeans最主要特点是把点与集合的距离简化为点与中心点距离;其余比如数据输入顺序,如何更新label等,都是算法细节。 - Zealing   2018-10-24 02:48
谢谢!明白了,感觉online kmeans这个名字也有点名不符实啊,哈哈 - lllinnn   2018-10-24 09:06


  相关讨论

K-Means实现mini-batch online learning的原理是什么?

K-MEANS初始点选择的问题

Jenks和K Means在一维数据时,是不是等价的?

KMeans++是怎么选初始点的?

K Means初始点必须是样本中的点吗

kmeans可以用在三维数据上吗?

kernal kmeans是什么意思?和一般的kmeans的区别是什么?

关于小批量K均值(mini-batch K Means)的问题

通俗地解释c-means以及fuzzy c-means是什么意思

kmeans可以做并行化计算达到加速效果吗?

  随便看看

roc auc小于0.5是什么情况?

为啥Xgboost比GradientBoost好那么多?

seaborn.distplot直方图的y轴的数值是什么意思?

huber loss是什么?什么时候用?

向量梯度下降优化的最佳步长?