语音合成标记语言 (SSML) 概述
语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,可用于微调文本转语音输出属性,例如音调、发音、语速、音量等。 与纯文本输入相比,它可以提供更多的控制权和灵活性。
提示
可以通过使用语音库听到不同风格和音调的声音阅读示例文本。
用例场景
SSML 旨在让你灵活选择语音输出的声音,并提供不同的属性用于自定义该输出。 可以使用 SSML 来执行以下操作:
- 定义输入文本结构,用于确定文本转语音输出的结构、内容和其他特征。 例如,可以使用 SSML 来定义段落、句子、中断/暂停或静音。 可以使用事件标记(例如书签或视素)包装文本,应用程序稍后可以处理这些标记。 视素是口语中音素(单个语音)的视觉描述。
- 选择语音、语言、名称、样式和角色。 可以在单个 SSML 文档中使用多个语音。 还可以调整重音、语速、音调和音量。 SSML 还可以插入预先录制的音频,例如音效或音符。
- 控制输出音频的发音。 例如,可以将 SSML 与音素和自定义词典配合使用来改进发音。 还可以使用 SSML 定义单词或数学表达式的具体发音。
使用 SSML 的方法
SSML 功能可在可能适合你的用例的各种工具中使用。
重要
按照转换为语音的每个字符(包括标点)付费。 尽管 SSML 文档本身不计费,但该服务将用于调整文本转语音方式的可选元素(例如音素和音调)算作计费字符。 有关详细信息,请参阅定价说明。
可以按下列方式使用 SSML:
- 有声内容创作工具让你可以在 Speech Studio 中创作纯文本和 SSML。 可以收听输出音频并调整 SSML 以提高语音合成。 有关详细信息,请参阅通过音频内容创建工具进行音频合成。
- 语音 CLI 通过
spx synthesize --ssml SSML
命令行参数接受 SSML。 - 语音 SDK 通过“speak”SSML 方法跨不同受支持的语言接受 SSML。