python使用MFCC特征训练GMMHMM模型-SofaSofa

如题，我现在有很多段音频，每个音频的每一帧单独标记了它是伴奏还是浊音和清音，我现在知道每一帧音频的MFCC39维特征，三种状态的初始概率，三种状态转移矩阵，我想通过这三个条件来训练GMMHMM模型，我尝试用sklearn.mixture来分别训练三种状态的MFCC序列，得出三个GMM模型，但是效果一直不理想，我不知道我的方法是否错误，希望各位能指导我一下GMM在音频训练时的过程，另外我尝试用hmmlearn来直接建模时不知道如何下手

Risklong 2018-04-15 19:06

2个回答

你的目的是？判断下一帧是三种类型的哪一种吗？

SofaSofa数据科学社区 DS面试题库 DS面经

sasa 2018-04-16 02:47

是的，给出一段新的音频文件，然后通过这个模型来判断新文件的每一帧属于哪个状态，主要是我不熟悉如何训练，请您指点 - Risklong 2018-04-17 21:32

为什么只用初始概率和状态转移矩阵呢？我觉得音频本身的信息更重要啊

把它们的信息结合在一起然后搞个时间序列模型应该是不错的选择

SofaSofa数据科学社区 DS面试题库 DS面经

数据痴汉 2018-04-20 23:13

原谅我直言，请去多了解一些语音分离的知识吧，或者看完题再回答 - Risklong 2018-04-24 18:48

python使用MFCC特征训练GMMHMM模型

Warning

2个回答

Warning

Warning