如题,我现在有很多段音频,每个音频的每一帧单独标记了它是伴奏还是浊音和清音,我现在知道每一帧音频的MFCC39维特征,三种状态的初始概率,三种状态转移矩阵,我想通过这三个条件来训练GMMHMM模型,我尝试用sklearn.mixture来分别训练三种状态的MFCC序列,得出三个GMM模型,但是效果一直不理想,我不知道我的方法是否错误,希望各位能指导我一下GMM在音频训练时的过程,另外我尝试用hmmlearn来直接建模时不知道如何下手
2个回答
你的目的是?判断下一帧是三种类型的哪一种吗?
是的,给出一段新的音频文件,然后通过这个模型来判断新文件的每一帧属于哪个状态,主要是我不熟悉如何训练,请您指点
-
Risklong
2018-04-17 21:32
为什么只用初始概率和状态转移矩阵呢?我觉得音频本身的信息更重要啊
把它们的信息结合在一起然后搞个时间序列模型应该是不错的选择
原谅我直言,请去多了解一些语音分离的知识吧,或者看完题再回答
-
Risklong
2018-04-24 18:48