浅谈语音识别基础-赢咖4注册

aihot 2017-11-04 22:03:05 机器学习 | 查看评论

　　声学模型处理的问题主要在于特征向量序列的可变长和音频信号的丰富变化性，因为语音长度是不确定的，所以特征向量序列的长度也是不确定的，我们一般通过动态时间规整方法和隐马尔可夫模型来处理。音频信号的丰富变化性指，音频信号的多样性会由说话人的性别、健康状况、紧张程度、说话风格以及环境噪声、周围人声、信道扭曲、方言差异、非母语口音等各种原因所引起。

　　在过去，信号处理和特征抽取一般用梅尔倒谱系数或者相对频谱变换-感知线性预测 作为特征向量，然后使用混合高斯模型-隐马尔可夫模型（GMM-HMM）作为声学模型，然后再用最大似然准则（maximum likelihood，ML）去训练，再之后序列鉴别性训练算法，比如最小分类错误（MCE）和最小音素错误（MPE）等准则被提了出来。

　　近些年，分层鉴别模型比如DNN，变得可行起来，比如上下文相关的深度神经网络-隐马尔可夫模型（context-dependent DNN-HMM，CD-DNN-HMM）就比传统的GMM-HMM表现要好得多。这篇文章将会着重介绍CD-DNN-HMM。