声学模型处理的问题主要在于特征向量序列的可变长和音频信号的丰富变化性,因为语音长度是不确定的,所以特征向量序列的长度也是不确定的,我们一般通过动态时间规整方法和隐马尔可夫模型来处理。音频信号的丰富变化性指,音频信号的多样性会由说话人的性别、健康状况、紧张程度、说话风格以及环境噪声、周围人声、信道扭曲、方言差异、非母语口音等各种原因所引起。
在过去,信号处理和特征抽取一般用梅尔倒谱系数或者相对频谱变换-感知线性预测 作为特征向量,然后使用混合高斯模型-隐马尔可夫模型(GMM-HMM)作为声学模型,然后再用最大似然准则(maximum likelihood,ML)去训练,再之后序列鉴别性训练算法,比如最小分类错误(MCE)和最小音素错误(MPE)等准则被提了出来。
近些年,分层鉴别模型比如DNN,变得可行起来,比如上下文相关的深度神经网络-隐马尔可夫模型(context-dependent DNN-HMM,CD-DNN-HMM)就比传统的GMM-HMM表现要好得多。这篇文章将会着重介绍CD-DNN-HMM。
混合高斯模型
这里先说一下什么是高斯分布,高斯分布就是正态分布。如下图:
红色的是标准的正态分布,µ指均值,σ^2指方差,方差越大,分布越分散。
E(x) = μ,var(x) = σ^2 = r^(−1)
正态分布的累积分布函数如下图所示,与前面提过的Sigmoid函数类似:
上面说的只是普通的高斯分布,还有混合高斯分布,不同于高斯分布的单模态性质M=1,混合高斯分布是多模态的M>1,是多个高斯分布的按权叠加,如下式: