Azure 语音正借助神经高清 (HD) 语音持续推进文本转语音技术的发展。 这些 HD 语音可理解内容,自动检测输入文本中的情绪,并实时调整语调以匹配情绪。 它们保持一致的语音角色,同时提供增强的表达力、自然性和控制力。
高清语音概述
Azure语音目前提供一个高级 HD 语音模型:
| Model | 语音计数 | 关键特征 | 最适用于 |
|---|---|---|---|
| DragonHD | 30 多种优化的语音 | 专业级品质、发音准确、支持多说话人 | 需要高质量输出的企业应用程序 |
HD 语音的主要功能
下表介绍了 Azure Speech HD 语音的主要特性:
| 主要功能 | Description |
|---|---|
| 人类般的语音生成 | 神经文本转语音 HD 语音可生成高度自然、接近真人的语音。 该模型基于数百万小时的多语言数据进行训练,使模型能够准确解释输入文本,并使用适当的情感、速度和节奏生成语音,无需手动调整。 |
| 会话 | 神经文本转语音 HD 语音复制自然语音模式,包括自发暂停和强调。 给定对话文本时,模型可以重现常见的音素,如暂停和填充词。 生成的声音听起来像是有人直接与你交谈。 |
| 韵律变体 | 神经文本转语音 HD 语音会在每次输出时引入细微变化,以提升真实感。 这些变化使语音听起来更自然,因为人类的声音会自然地表现出变化。 |
| 高保真度 | 神经文本转语音 HD 语音的主要目标是生成高保真音频。 系统生成的合成语音可以密切模仿人类语音的质量和自然性。 |
Azure 语音 HD 语音与其他 Azure 文本转语音语音的比较
Azure高清语音与其他Azure文本转语音功能相比如何? 下面是详细的比较:
| 功能 | Azure高清语音 | Azure 语音合成(非 HD) |
|---|---|---|
| Region | 请参阅 语音服务区域 | 在数十个区域中可用。 请参阅 语音服务区域。 |
| 语音数 | 30 | 超过 500 |
| 多 语种 | 是的 | 是(仅适用于多语言声音) |
| SSML 支持 | 对一部分 SSML 元素的支持。 | 支持 Azure 语音中 完整的 SSML 功能。 |
| 开发选项 | 语音 SDK、语音 CLI、REST API | 语音 SDK、语音 CLI、REST API |
| 部署选项 | 仅限云 | 云、嵌入式、混合和容器。 |
| 实时或批量合成 | 仅限实时 | 实时和批量合成 |
| Latency | 小于 300 毫秒 | 小于 300 毫秒 |
| 合成音频的采样率 | 8、16、24 和 48 kHz | 8、16、24 和 48 kHz |
| 语音输出音频格式 | opus、mp3、pcm、truesilk | opus、mp3、pcm、truesilk |
支持的 Azure 高保真语音
Azure 语音提供两组具有不同模型体系结构的 HD 语音:
Dragon HD 语音
Azure 语音 HD 语音值采用 voicename:DragonHD:version 格式。 冒号前的名称,例如 en-US-Ava,是语音角色的名称及其原始语言环境。
若要确保使用Microsoft提供的基本模型的最新版本,请使用 LatestNeural 版本。
例如,对于角色 en-US-Ava,可以指定:
-
en-US-Ava:DragonHDLatestNeural:始终使用最新版本的 DragonHD 基础模型。
下表列出了可用的 DragonHD 语音:
| 语音名称 | 性别 | 地位 |
|---|---|---|
de-DE-Seraphina:DragonHDLatestNeural |
女性 | GA |
de-DE-Florian:DragonHDLatestNeural |
男性 | GA |
en-GB-Ada:DragonHDLatestNeural |
女性 | GA |
en-GB-Ollie:DragonHDLatestNeural |
男性 | GA |
en-GB-Ryan:DragonHDLatestNeural |
男性 | Preview |
en-GB-Sonia:DragonHDLatestNeural |
女性 | Preview |
en-US-Ava:DragonHDLatestNeural |
女性 | GA |
en-US-Andrew:DragonHDLatestNeural |
男性 | GA |
en-US-Adam:DragonHDLatestNeural |
男性 | GA |
en-US-Alloy:DragonHDLatestNeural |
男性 | GA |
en-US-Aria:DragonHDLatestNeural |
女性 | GA |
en-US-Bree:DragonHDLatestNeural |
女性 | GA |
en-US-Brian:DragonHDLatestNeural |
男性 | GA |
en-US-Davis:DragonHDLatestNeural |
男性 | GA |
en-US-Emma:DragonHDLatestNeural |
女性 | GA |
en-US-Emma2:DragonHDLatestNeural |
女性 | GA |
en-US-Jane:DragonHDLatestNeural |
女性 | GA |
en-US-Jenny:DragonHDLatestNeural |
女性 | GA |
en-US-Nova:DragonHDLatestNeural |
女性 | GA |
en-US-Phoebe:DragonHDLatestNeural |
女性 | GA |
en-US-Serena:DragonHDLatestNeural |
女性 | GA |
en-US-Steffan:DragonHDLatestNeural |
男性 | GA |
en-US-Andrew2:DragonHDLatestNeural |
男性 | GA |
en-US-Andrew3:DragonHDLatestNeural |
男性 | Preview |
en-US-Ava3:DragonHDLatestNeural |
女性 | Preview |
en-US-Evelyn:DragonHDLatestNeural |
女性 | Preview |
en-US-Jimmie:DragonHDLatestNeural |
男性 | Preview |
en-US-Juno:DragonHDLatestNeural |
男性 | Preview |
en-US-Mila:DragonHDLatestNeural |
女性 | Preview |
en-US-Tessa:DragonHDLatestNeural |
女性 | Preview |
en-US-Tiana:DragonHDLatestNeural |
女性 | Preview |
en-US-Tyler:DragonHDLatestNeural |
男性 | Preview |
en-US-Vance:DragonHDLatestNeural |
男性 | Preview |
es-ES-Ximena:DragonHDLatestNeural |
女性 | GA |
es-ES-Tristan:DragonHDLatestNeural |
男性 | GA |
es-MX-Ximena:DragonHDLatestNeural |
女性 | GA |
es-MX-Tristan:DragonHDLatestNeural |
男性 | GA |
fil-PH-Angelo:DragonHDLatestNeural |
男性 | Preview |
fil-PH-Blessica:DragonHDLatestNeural |
女性 | Preview |
fr-CA-Sylvie:DragonHDLatestNeural |
女性 | GA |
fr-CA-Thierry:DragonHDLatestNeural |
男性 | GA |
fr-FR-Vivienne:DragonHDLatestNeural |
女性 | GA |
fr-FR-Remy:DragonHDLatestNeural |
男性 | GA |
id-ID-Ardi:DragonHDLatestNeural |
男性 | Preview |
id-ID-Gadis:DragonHDLatestNeural |
女性 | Preview |
it-IT-Isabella:DragonHDLatestNeural |
女性 | GA |
it-IT-Alessio:DragonHDLatestNeural |
男性 | GA |
ja-JP-Nanami:DragonHDLatestNeural |
女性 | GA |
ja-JP-Masaru:DragonHDLatestNeural |
男性 | GA |
ko-KR-SunHi:DragonHDLatestNeural |
女性 | GA |
ko-KR-Hyunsu:DragonHDLatestNeural |
男性 | GA |
ms-MY-Osman:DragonHDLatestNeural |
男性 | Preview |
ms-MY-Yasmin:DragonHDLatestNeural |
女性 | Preview |
pt-BR-Thalita:DragonHDLatestNeural |
女性 | GA |
pt-BR-Macerio:DragonHDLatestNeural |
男性 | GA |
zh-CN-Xiaochen:DragonHDLatestNeural |
女性 | GA |
zh-CN-Yunfan:DragonHDLatestNeural |
男性 | GA |
HD 语音支持以下风格和副语言标签:
| 类型 | Tag |
|---|---|
| 样式 |
amazed、amused、angry、annoyed、anxious、appreciative、calm、cautious、concerned、confident、confused、curious、defeated、defensive、defiant、determined、disappointed、disgusted、doubtful、ecstatic、encouraging、excited、fast、fearful、frustrated、happy、hesitant、hurt、impatient、impressed、intrigued、joking、laughing、optimistic、painful、panicked、panting、pleading、proud、quiet、reassuring、reflective、relieved、remorseful、resigned、sad、sarcastic、secretive、serious、shocked、shouting、shy、skeptical、slow、struggling、surprised、suspicious、sympathetic、terrified、upset、urgent、whispering |
| Paralinguistics |
laughter、coughing、throat_clearing、breathing、sighing、yawning |
注释
所有语音的英语内容均支持风格和副语言特征。 样式结果与输入内容密切相关:模型根据文本的语义含义调整样式应用程序。 请参阅样式和副语言SSML 模板。
Dragon HD Flash 语音
HD Flash 语音是所选 DragonHD 语音的优化变体,目前支持中文(zh-cn)和英语(en-US)文本。 这些语音更加自然,目前仅在 chinanorth3 中提供。
下表列出了所有可用的 HD Flash 语音和支持的样式。
| 语音名称 | 支持的样式 |
|---|---|
zh-cn-Xiaoxiao:DragonHDFlashLatestNeural |
angry、chat、cheerful、customer-service、excited、fearful、sad、voice-assistant |
zh-cn-Xiaoxiao2:DragonHDFlashLatestNeural |
affectionate、angry、anxious、cheerful、curious、disappointed、empathetic、encouraging、excited、fearful、guilty、lonely、poetry-reading、sad、sentimental、sorry、story、surprised、tired、whispering |
zh-cn-Xiaochen:DragonHDFlashLatestNeural |
cheerful、debating、empathetic、live-commercial、poetry-reading、sad、sorry |
zh-cn-Xiaoyi:DragonHDFlashLatestNeural |
angry、complaining、cute、gentle、nervous、sad、shy、strict |
zh-cn-Xiaoyu:DragonHDFlashLatestNeural |
angry、debating、cheerful、comforting、sad、sorry |
zh-cn-Xiaohan:DragonHDFlashLatestNeural |
affectionate、angry、cheerful、complaining、fearful、gentle、sad、shy、strict |
zh-cn-Xiaoshuang:DragonHDFlashLatestNeural |
chat |
zh-cn-Xiaoyou:DragonHDFlashLatestNeural |
chat、angry、cheerful、poetry-reading、sad、story、cute |
zh-cn-Yunxi:DragonHDFlashLatestNeural |
angry、chat、cheerful、complaining、depressed、fearful、news、sad、shy、strict、voice-assistant |
zh-cn-Yunyi:DragonHDFlashLatestNeural |
assassin、captain、cavalier、prince、game-narrator、geomancer、poet |
zh-cn-Yunxiao:DragonHDFlashLatestNeural |
— |
zh-cn-Yunhan:DragonHDFlashLatestNeural |
angry、cheerful、curious、empathetic、encouraging、excited、guilty、lonely、sad、serious、sorry、whispering、surprised、tired |
zh-cn-Yunxia:DragonHDFlashLatestNeural |
affectionate、angry、cheerful、comforting、encouraging、excited、fearful、sad、surprised |
zh-cn-Yunye:DragonHDFlashLatestNeural |
— |
en-US-Tiana:DragonHDFlashLatestNeural |
— |
en-US-Tyler:DragonHDFlashLatestNeural |
— |
en-US-Jimmie:DragonHDFlashLatestNeural |
— |
注释
HD Flash 仅支持在 zh-cn 和 en-US 中的文本。
如何使用 Azure 高清语音功能
与非 HD 语音一样,对 HD 语音使用相同的语音 SDK 和 REST API。
使用 Azure 语音 HD 语音时,请考虑以下要点:
- 声音区域设置:声音名称中的区域设置指示其原始语言和区域。
-
基础模型:
- HD 语音包括一个基本模型,用于理解输入文本并相应地预测说话模式。 可以根据每个语音的可用性指定所需的模型,例如
DragonHDLatestNeural。
- HD 语音包括一个基本模型,用于理解输入文本并相应地预测说话模式。 可以根据每个语音的可用性指定所需的模型,例如
-
SSML 用法:若要在 SSML 中引用语音,请使用格式
voicename:basemodel:version。 冒号前的名称,例如de-DE-Seraphina,是语音角色的名称及其原始语言环境。 基础模型会在后续更新中按版本跟踪。 -
温度参数:
- 温度值为 0 到 1 的浮点,影响输出的随机性。 可以调整温度参数来控制输出的变化。 更低的随机性会产生更稳定的结果,而更高的随机性会提供多样性而减少一致性。
- 温度较低会导致随机性较低,从而导致更可预测的输出。 更高的温度会增加随机性,从而允许更多样化的输出。 默认温度设置为 1.0。
下面是如何在 SSML 中使用 Azure Speech HD 语音的示例:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Azure 语音 HD 声音支持和不支持的 SSML 元素
包含输入文本的语音合成标记语言 (SSML) 确定了文本转语音输出的结构、内容和其他特征。 例如,可以使用 SSML 来定义段落、句子、中断/暂停或静音。 可以将文本与事件标记(例如书签或 viseme)一起包装,以便应用程序稍后处理。
Azure 高质量语音根据不同模型支持不同的 SSML 元素。
- DragonHD 语音:支持一部分 SSML 元素(请参阅下表)
有关 Azure Speech HD 语音支持的和不支持的 SSML 元素的详细信息,请参阅下表。 有关如何使用 SSML 元素的说明,请参阅语音合成标记语言 (SSML) 文档。
| SSML 元素 | Description | DragonHD |
|---|---|---|
<voice> |
指定声音和可选效果(eq_car 和 eq_telecomhp8k)。 |
是的 |
<mstts:express-as> |
指定讲话风格和角色。 | 否 |
<mstts:ttsembedding> |
指定个人声音的 speakerProfileId 属性。 |
否 |
<lang xml:lang> |
指定讲话语言。 | 是的 |
<prosody> |
调整音调、轮廓、范围、速率和音量。 | 否 |
<emphasis> |
添加或删除文本的单词级强调。 | 否 |
<audio> |
将预先录制的音频嵌入 SSML 文档中。 | 否 |
<mstts:audioduration> |
指定输出音频的持续时间。 | 否 |
<mstts:backgroundaudio> |
在您的 SSML 文档中添加背景音频,或将音频文件与文本转语音混合。 | 否 |
<phoneme> |
指定 SSML 文档中的拼音发音。 | 是的 |
<lexicon> |
定义如何在 SSML 中读取多个实体。 | 是(仅支持别名) |
<say-as> |
指示元素文本的内容类型,如数字或日期。 | 是的 |
<sub> |
指示应读出别名属性的文本值,而不是元素中包含的文本。 | 是的 |
<math> |
使用 MathML 作为输入文本,以便在输出音频中正确读出数学符号。 | 否 |
<bookmark> |
获取音频流中每个标记的偏移量。 | 否 |
<break> |
覆盖单词之间换行或停顿的默认行为。 | 是的 |
<mstts:silence> |
可以在文本之前、之后或两个相邻句子之间插入停顿。 | 否 |
<mstts:viseme> |
定义一个人说话时面部和嘴巴的位置。 | 否 |
<p> |
表示 SSML 文档中的段落。 | 是的 |
<s> |
表示 SSML 文档中的句子。 | 是的 |
参数增强发音
该 enhancePronunciation 参数可在语音合成期间启用增强的发音处理。 设置为 true 时,神经HD 语音会应用额外的发音优化来提高口语输出的清晰度和正确性,尤其是对于复杂、不明确或非标准文本。
启用 enhancePronunciation时,该服务通过在合成过程中应用增强的语言处理来确定发音准确性的优先级。 此项改进有助于改善系统的读取方式:
- 专有名词、名称和不常见词汇
- 首字母缩略词、缩写和混合大小写文本
- 具有多个可能发音的单词取决于上下文,此参数补充了现有的发音控件,如基于 SSML 的发音标记和词典,并且不会替换它们。 默认值为 false,用于保留可预测的向后兼容语音输出。 如果希望服务应用额外的发音优化,以提高清晰度和自然性,请启用它。
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-Ava:DragonHDLatestNeural" parameters="enhancePronunciation=true">
This is a pronunciation enhanced example for technical terms like
Kubernetes, Azure OpenAI, and multilingual content such as 今、何か軽く摘めそうなものある?
</voice>
</speak>
推荐用例
在具有结构化或技术域特定内容的方案中启用 enhancePronunciation 。
注释
该参数仅影响发音处理;它不会更改语音选择、说话风格或音调控件。 结果可能因语言、语音和输入文本而异。 对于确定性发音控制,SSML 发音元素仍然是建议的方法。