TTS

将文字转化为语音流的技术

条目

TTS（Text-to-Speech，文语转换）是一种用于将文本信息转换成自然语音的技术。其目标是让计算机能够以清晰自然的声音，使用各种语言和情绪来朗读文本，实现类似于人类甚至更强的说话能力。^[1]

TTS涉及语言学、韵律学、语音学、自然语言处理、信号处理、人工智能等多个学科领域。TTS分为综合的和连贯的两种类型。综合的TTS通过分析单词的发音，然后使用模拟人声音的算法来朗读文本，但缺乏情感表达，带有机械语音的味道。连贯的TTS系统则预先录制了一系列单词和短语的语音，根据文本内容抽取并拼接录音，听起来更加自然。然而，连贯TTS无法读取未录制的词和短语。连贯TTS可以看作是一种声音压缩形式，能节省开发时间、减少错误，并增加软件的功能。^[1]

TTS满足将文本转化成拟人化语音的需求，打通人机交互闭环。提供多场景、多语言的音色选择，支持 SSML 标记语言，支持自定义音量、语速等参数，让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。^[2]

解析

TTS文语转换用途很广，包括电子邮件的阅读、IVR系统的语音提示等等，目前IVR系统已广泛应用于各个行业（如电信、交通运输等）。