语音识别技术(Speech Recognition Technology)[1],也称自动语音识别(Automatic Speech Recognition,ASR)[3]是一种以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言或者文字的技术,语音识别技术一般利用计算机程序,通过分析语音信号的频率、声调、语速、语调等特征,进一步进行声学建模、语言模型以及语音与自然语言之间的对齐、解码等技术处理,最终输出具有理解性的文本结果。[4][5][6] 20世纪50年代,以贝尔实验室研制成功可以识别10个英文数字的实验系统为标志,语音技术研究工作正式进入起步阶段。[7]
语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。[4]正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够脱离键盘等输入工具,通过语音命令进行相应的操作。[1][4] 语音识别目前是人工智能领域相对成熟的技术,已经广泛应用于智能助理、语音识别交互、智能家居、金融交易等领域。[2][4]伴随着移动互联网的发展,基于Deep Peak2、Deep Fully等语言模型开发出来的的语音识别技术,也已经广泛地被应用于各类产品之上。[3][8] 发展历史