2个回答
正如nobodyoo1说的,一个方法是用BIC
$$BIC=−2\log(L)+k\log(n)$$
$L$是likelihood,$k$是component的个数,$n$是样本的个数。
另一个方法是根据split test的结果(或者说cross validation的结果),先用训练集得到GMM的参数,然后再在测试集上计算log-likelihood。两者明显分叉的地方就是component个数的最佳候选。
可以用BIC(Bayesian information-theoretic criteria)来选择。
Gaussian Mixture Model Selection