aihot  2017-11-04 22:03:05  机器学习 |   查看评论   

  承接前面的《浅谈机器学习基础》、《浅谈深度学习基础》和《浅谈自然语言处理基础》,主要参考了《解析深度学习:语音识别实践》以及其它相关博客和Wikipedia。

简介

  其实自动语音识别(Automatic Speech Recognition,ASR)这个研究领域已经活跃了五十多年,但一直并没有真正成为一种重要的人机交流的形式,一个是缘于当时技术的落后,语音技术在大多数实际用户实际使用的场景下还不大可用;另一个是,很多情况下使用键盘、鼠标这样的形式比语音更有效、更准确、约束更小。

  近年来,首先是,由于摩尔定律持续有效,今天可用的计算力仅仅相比十几年前就高了几个量级;其次是,借助越来越先进的互联网和云计算,我们得到了比先前多得多的数据资源。最后,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行,在这些设备和系统上,鼠标和键盘不再那么便捷了,而对话交互会成为人机交互的未来。

  语音技术同时可以促进人类之间的交流(HHC)以及人机交流(HMC),HHC比如,发送给他人的语音消息可以转化为文字方便阅读,采用语音输入也更为便捷,语音识别技术还可以用来将演讲和课程内容进行识别和索引;HMC比如,语音搜索、个人智能助理、声控游戏、智能家居等。

  一个语音对话系统一般包含四个主要组成部分中的一个或多个:语音识别系统将语音转化为文本、语义理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统连接其他三个系统并完成与实际应用场景的沟通。如下图:

语音对话系统的组成

语音对话系统的组成

  这里我们只关注语音识别系统,语音识别系统主要由四部分组成:信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。如下图:

语音识别系统的架构

语音识别系统的架构

  信号处理和特征提取是语音识别系统的第一部分,接受最原始的音频信号,通过消除噪声和信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。

  声学模型以特征提取部分生成的特征为输入,为可变长特征序列生成声学模型分数。

  语言模型估计通过训练语料学习词与词之间的相互关系,来估计假设词序列的可能性,又叫语言模型分数。如果了解领域或任务相关的先验知识,语言模型的分数通常可以估计的更准确。

  解码搜索综合声学模型分数与语言模型分数的结果,将总体输出分数最高的词序列当做识别结果。

  或者看这张图:

浅谈语音识别基础

  语音识别就是一个先编码后解码的过程,信号处理和特征提取就是编码的过程,也即图中的Feature Extraction,特征抽取,由原始的语音得到语音向量。后面即是对语音向量的解码,而解码需要的Acoustic Model、Language Model就是上面提到过的声学模型和语言模型。声学模型这篇文章会着重讲,语言模型就是《浅谈自然语言处理基础》里面提过的N-gram那部分。

 1/11    1 2 3 4 5 6 下一页 尾页
 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自浅谈语音识别基础

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]