语音合成标记语言 (SSML) 概述

语音合成标记语言 (SSML) 是一种基于 XML 的标记语言，可用于微调文本转语音输出属性，例如音调、发音、语速、音量等。与纯文本输入相比，它可以提供更多的控制权和灵活性。

提示

可以通过使用语音库听到不同风格和音调的声音阅读示例文本。

用例场景

SSML 旨在让你灵活选择语音输出的声音，并提供不同的属性用于自定义该输出。可以使用 SSML 来执行以下操作：

定义输入文本结构，用于确定文本转语音输出的结构、内容和其他特征。例如，可以使用 SSML 来定义段落、句子、中断/暂停或静音。可以使用事件标记（例如书签或视素）包装文本，应用程序稍后可以处理这些标记。视素是口语中音素（单个语音）的视觉描述。
选择语音、语言、名称、样式和角色。可以在单个 SSML 文档中使用多个语音。还可以调整重音、语速、音调和音量。 SSML 还可以插入预先录制的音频，例如音效或音符。
控制输出音频的发音。例如，可以将 SSML 与音素和自定义词典配合使用来改进发音。还可以使用 SSML 定义单词或数学表达式的具体发音。

使用 SSML 的方法

SSML 功能可在可能适合你的用例的各种工具中使用。

重要

按照转换为语音的每个字符（包括标点）付费。尽管 SSML 文档本身不计费，但该服务将用于调整文本转语音方式的可选元素（例如音素和音调）算作计费字符。有关详细信息，请参阅定价说明。

可以按下列方式使用 SSML：

有声内容创作工具让你可以在 Speech Studio 中创作纯文本和 SSML。可以收听输出音频并调整 SSML 以提高语音合成。有关详细信息，请参阅通过音频内容创建工具进行音频合成。
语音 CLI 通过 spx synthesize --ssml SSML 命令行参数接受 SSML。
语音 SDK 通过“speak”SSML 方法跨不同受支持的语言接受 SSML。

后续步骤

Last updated on 2026-06-09