浅谈语音识别基础-赢咖4注册

aihot 2017-11-04 22:03:05 机器学习 | 查看评论

　　另外还有多元高斯分布和多元混合高斯分布，是将相应的高斯分布推广到多变量：

多元高斯分布

多元高斯分布

多元混合高斯分布联合

多元混合高斯分布联合

　　这里的x就不再是一个值而是一个向量，拥有多个维度。Σm是协方差矩阵，前面讲PCA主成分分析时提到过，协方差矩阵用于描述不同维度变量之间的相关关系。

　　在这里，如果变量x的维度很大，那么使用全协方差矩阵（非对角）将引入大量参数，为了减少这个数量，可以使用对角协方差矩阵，或者所有M模态都使用同样的协方差矩阵。

　　前面说，协方差矩阵用于描述不同维度变量之间的相关关系，如果我们采用了对角阵，看似是假设了数据向量的各个维度不相关，但是实际上，因为混混合高斯模型具有多个高斯成分，多个模态，所以虽然每个成分都使用了对角协方差矩阵，但总体上至少可以有效地描述由一个使用全协方差矩阵的单高斯模型所描述的向量维度相关性。

　　对GMM相关参数变量的训练，需要用到EM算法，这个算法在《浅谈自然语言处理基础》中有详细的讲解。

　　讲完了高斯模型，我们需要讨论一下如何利用混合高斯分布对语音特征建模的问题。

　　原始语音数据经过一些处理（如短时傅里叶变换形式或者取倒谱）后会成为特征序列，在忽略时序信息的条件下，可以以帧为单位，用GMM对语音特征进行建模。GMM因其拟合任意复杂的、多种形式的分布能力而广为人知。

　　如果把语音顺序信息考虑进去，GMM便不再是个好模型，因为它不包含任何顺序信息，所以这里我们要引入隐马尔可夫模型（HMM）与GMM结合，来处理时序问题。

　　我们利用GMM对HMM每个状态的语音特征分布进行建模，《浅谈自然语言处理基础》也详细讲过HMM了，这里的GMM就相当于描述状态的符号发射概率，对于属于该状态的语音特征向量的概率分布进行建模。

　　GMM尽管有着众多优势，但也有一个严重的不足，就是GMM不能有效地对呈非线性或近似非线性的数据进行建模。比如描述一个球面，如果选择合适的模型，只需要很少的参数，而GMM却需要非常多对角协方差高斯分布或相当多的全协方差高斯分布。

3/11 首页上一页 1 2 3 4 5 6 下一页尾页

关于本站

加入我们

网站合作

标签（推荐）