浅谈语音识别基础-赢咖4注册

aihot 2017-11-04 22:03:05 机器学习 | 查看评论

　　LIN、LON、LHN虽然非常相似，但它们在参数数量和特征上还有微小的不同，而且性能是任务相关的。

　　然后是保守训练，保守训练是为了避免线性变换等其它自适应方法出现过拟合，破坏之前学到的信息，我们可以通过添加正则项做到这一点。保守训练中最常使用的正则项是L2正则项和KLD正则项。

　　L2正则项之前详细讲过，这里主要提一下KL距离（KLD）正则项。KL距离正则项方法的直观解释是，从自适应模型中估计出的senone后验概率不应和从未自适应模型中估计出的后延概率差别太大。而且我们知道KL距离/相对熵就是描述两种概率分布之间的差异的，所以我们把KLD添加到损失函数里去一起被最小化，就能限制两种概率分布之间的差异不至于过大。

　　L2正则项限制的是模型参数自身，而非输出概率，但我们在意的是输出概率而不是模型参数自身，所以KLD正则项的表现不会比L2正则项更差。

　　保守训练只能减轻在自适应过程中的过拟合问题，但并不能解决对每个说话人都要存储一个巨大的自适应模型的问题。我们可以采用SVD分解，并舍弃掉部分过小奇异值的方法来对模型大小进行压缩。

　　然后我们还有子空间方法，我们可以通过PCA构建一个足够大的说话人空间，每个新的说话人可以由特征向量的线性组合来表示，而且我们也可以通过丢弃特征向量中方差小的向量来控制。

　　还有一些子空间方法明确的从句子中估计噪声或者说话人信息，并把这些信息输入网络中，希望DNN训练算法能够自动理解怎样利用噪声、说话人或者设备信息来调整模型参数。

　　说话人信息的估计可以完全独立于DNN训练，也即从一个独立的DNN中学习得到，有文献提出了i-vector方法，i-vector方法是在说话人确认以及识别中流行的一种技术，它在低维固定长度中压缩表示了说话人特征最重要的信息，这对于ASR中的说话人自适应来说是一个非常理想的工具。

深度神经网络中的表征共享和迁移

　　这部分简单的介绍一下多任务学习和迁移学习，在深度神经网络（DNN）中，每个隐藏层都是输入DNN的原始数据的一种新特征表示（表征），较高层次的表征比较低层次的表征更抽象，我们可以通过多任务学习和迁移学习将这些表征共享和迁移到相关的任务。

　　多任务学习（Multitask learning，MTL）是一种旨在通过联合学习多个相关的任务来提高模型泛化能力的机器学习技术，这些相关的任务需要在一定抽象层次上可以共享一部分表征。MTL可以为每个任务增加训练数据量，而且有助于任务间迁移知识。

浅谈语音识别基础

　　图中画红圈的隐层就被三个任务所共享。

　　迁移学习致力于通过保持和利用从一个或多个相似的任务、领域或概率分布中学习到的知识，来快速并有效地为一个新的任务、领域或概率分布开发一个有较好性能的系统，DNN得益于隐藏层所表示的更加抽象和更具不变性的特征，所以非常适合迁移学习。

　　经实验验证，不仅法语DNN的隐层所表示的特征变换可以有效地迁移以识别美式英语语音，而且欧洲语言到中文普通话的迁移学习也是有效的。不过标注信息是非常有必要提供的。

　　在语音识别中，多任务学习还有其他应用场景，比如通过同时学习数字分类、噪声语音增强和说话人性别识别任务来训练神经网络，提高噪声环境下数字识别的性能。给DNN选择添加合适的辅助任务，网络能够在不同的任务中利用公共的结构去学习一个具有更好泛化能力的模型，比如同时识别音素和字素。

　　而且，受人类语言感知的双模态原理（视觉和听觉）的启发，还可以同时为DNN提供音频和图像，大概是唇语识别。

10/11 首页上一页 8 9 10 11 下一页尾页

深度神经网络中的表征共享和迁移

关于本站

加入我们

网站合作

标签（推荐）