TTS

将文字转化为语音流的技术
TTS(Text-to-Speech,文语转换)是一种用于将文本信息转换成自然语音的技术。其目标是让计算机能够以清晰自然的声音,使用各种语言和情绪来朗读文本,实现类似于人类甚至更强的说话能力。[1]
TTS涉及语言学、韵律学、语音学、自然语言处理、信号处理人工智能等多个学科领域。TTS分为综合的和连贯的两种类型。综合的TTS通过分析单词的发音,然后使用模拟人声音的算法来朗读文本,但缺乏情感表达,带有机械语音的味道。连贯的TTS系统则预先录制了一系列单词和短语的语音,根据文本内容抽取并拼接录音,听起来更加自然。然而,连贯TTS无法读取未录制的词和短语。连贯TTS可以看作是一种声音压缩形式,能节省开发时间、减少错误,并增加软件的功能。[1]
TTS满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。[2]

解析

TTS文语转换用途很广,包括电子邮件的阅读、IVR系统的语音提示等等,目前IVR系统已广泛应用于各个行业(如电信、交通运输等)。