浅谈语音识别基础-赢咖4注册

aihot 2017-11-04 22:03:05 机器学习 | 查看评论

高级模型初始化技术

　　至于模型初始化，《浅谈深度学习基础》也讲过了，就是自编码器和受限玻尔兹曼机。它们能对网络进行一定程度的预训练，在防止陷入局部最优或梯度消失上能起到一定的作用。

深度神经网络-隐马尔可夫模型混合系统（DNN-HMM）

　　这里我们先给出两张图，分别是GMM-HMM和DNN-HMM的示意图：

GMM-HMM

GMM-HMM

　　从图中可以看到，就像上文所说的，HMM中的状态序列就是语音识别的结果词汇序列，每种状态对应一种GMM，根据这个GMM可以得到该状态生成不同语音特征向量的概率。

　　接下来是DNN-HMM：

DNN-HMM

DNN-HMM

　　在混合系统中，HMM对语音信号的序列特性进行建模，DNN对所有聚类后的状态的似然度进行建模，这里对时间上的不同点采用同样的DNN。

　　在20世纪90年代中叶，这种混合模型就已被提出，早期被称作ANN-HMM，通常只使用上下文无关的音素（音素是语音的最小单位）状态作为ANN训练的标注信息，随后被扩展到上下文相关的音素建模，再后来，浅层的神经网络被替换成DNN，其次使用聚类后的状态（绑定后的三音素状态）代替单音素状态作为神经网络的输出单元，这种改善后的ANN-HMM混合模型称为CD-DNN-HMM。与传统的GMM-HMM相比，性能有了重大的提升。

　　在CD-DNN-HMM中，对于所有的状态，我们只训练一个完整的DNN来估计状态的后验概率，这与传统的GMM是不同的，因为GMM框架下，我们会使用多个不同的GMM对不同的状态建模。除此之外，典型的DNN输入不是单一的一帧，而是一个2ω+1帧大小的窗口特征，这使得相邻帧的信息可以被有效的利用。

CD-DNN-HMM的解码

　　这里一定要说明的一点是，我们想一下，HMM对于符号发射概率分布的要求是什么？是给定某状态的前提下，产生某输出符号的概率。再考虑一下GMM是怎么做的，是每个状态给了一张GMM分布图，再根据输出符号，就能找到给定某状态的前提下，产生某输出符号的概率。但是DNN不一样，上面也说了，DNN的输入是一个多帧的语音向量，输出是不同状态的概率，也即与HMM的要求相反，DNN描述的是，给定某输出符号的前提下，该输出符号是由某个状态产生的概率。所以我们就需要通过贝叶斯公式将DNN计算出来的这个似然度转为HMM需要的后验概率。

贝叶斯公式

贝叶斯公式

　　HMM要的是后验概率，也就是式子左边的，给定状态下，某输出符号的概率，DNN给的是式子右侧加粗的似然度，所以我们通过上式得到后延概率。P(Ot1)是语音向量出现的概率，与字词序列无关，这里可以忽略。P(St1)是某状态的先验概率，在缓解标注不平衡问题中是非常重要的，特别是训练句中包含很长静音段时就更是如此。

5/11 首页上一页 3 4 5 6 7 8 下一页尾页

高级模型初始化技术

深度神经网络-隐马尔可夫模型混合系统（DNN-HMM）

CD-DNN-HMM的解码

关于本站

加入我们

网站合作

标签（推荐）