高斯混合模型对初始值敏感吗?

  统计/机器学习 概率分布 无监督学习    浏览次数:3023        分享
0

刚刚看了GMM与EM的教程,想到一个问题,在用EM求解GMM时,初始值(初始状态下各聚类的中心点)是敏感的吗?换句话说,会因为初始点选择不当导致最终没有收敛到全局最优吗?

 

萨浪嘿   2019-06-25 00:52



   1个回答 
4

对于GMM:

当分类标签已知时,complete data log likelihood是convex函数,有唯一全局最优。

当分类标签未知时,observed data log likelihood不是convex函数,有局部最优,此时EM 对初始值敏感。

参考murphy书的11.3.2。(把这一页贴上来,希望没版权问题。)


11.15式中$z_i$未知,需要用积分去掉$z_i$;其中两项都是convex,两个convex相减一般是nonconvex。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-06-25 10:18

“分类标签已知”是指知道每类的均值和方差吗? - 萨浪嘿   2019-06-27 00:56
分类标签是每个数据点属于哪个类(Gaussian component)的one-hot编码,比如说https://en.wikipedia.org/wiki/Mixture_model#Gaussian_mixture_model 的$z_i$。均值和方差是需要估计的统计参数$\theta$。 - Zealing   2019-06-27 01:47
明白了,谢谢大佬 - 萨浪嘿   2019-06-28 14:39


  相关讨论

关于高斯混合模型的分布的疑问

高斯混合模型里的隐变量是什么变量?

用高斯混合模型(GMM)做聚类时,怎么确定component的个数?

odds和odds ratio的定义是什么?

长尾分布、肥尾分布、重尾分布?

强大数定律和弱大数定律有什么区别?

log-normal分布实际有什么用?

怎么判断一个数据集是双峰分布的?

均匀分布的上限的最大似然估计

机器学习中,数据的分布是指什么呢?

  随便看看

如何重命名pandas的dataframe的列名

pytorch里view(-1, 1)什么意思?

决策树、随机森林中的多重共线性问题

pandas.DataFrame选取最后k行

z test和t test什么区别?