语音转换是将给定音频的语音特征转换为目标语音扬声器的过程。 语音转换后,生成的音频将保留源音频的语言内容和音调,而语音音调听起来类似于目标扬声器。
用户需要语音转换功能有 3 个原因:
- 语音转换可以使用不同的语音标识复制内容,同时保持原始音调和情感。 例如,在教育中,教师可以录制自己阅读故事,语音转换可以使用预先设计的卡通人物的声音来传递这些故事。 此方法保留了教师阅读的表达性,同时结合了卡通人物声音的独特音色。
- 另一个应用程序是多语言配音。 当不同语音读取本地化内容时,语音转换可以将它们转换为统一语音,确保在保持最本地化的语音字符的同时,在所有语言之间获得一致的体验。
- 语音转换增强了对语音表现力的控制。 通过转换各种说话风格,如采用独特的语气或表达夸张的情感,语音在表达中获得了更大的多功能性,在不同的场景中可以更加动态。
关键功能
语音转换(或语音更改器或语音转语音转换)是基于最先进的生成模型构建的,提供高质量的语音转换。 它提供以下核心功能:
能力 | DESCRIPTION |
---|---|
高扬声器相似性 | 捕获目标说话者的音调和声音特征。 生成准确匹配目标语音的音频。 |
韵律保留 | 保持源音频的节奏、重音和语调。 保持表现力和情感素质。 |
高音频保真度 | 生成逼真的自然音频。 最小化伪影。 |
多语言支持 | 启用多语言语音转换。 支持 91 个区域设置(与标准文本到语音区域设置支持相同)。 请参阅用于语音转换的支持语音,以获取完整列表。 |
使用语音转换
可以将 Azure AI 语音转换与语音 SDK 或文本转语音 REST API 一起使用。
通过语音合成标记语言(SSML)中的<mstts:voiceconversion>
标签,指定源音频 URL 和目标语音来进行转换。 有关支持的目标语音的完整列表,请参阅 语音转换支持的目标语音。
示例 SSML
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice xml:lang="en-US" xml:gender="Female" name="en-US-AvaMultilingualNeural">
<mstts:voiceconversion url="https://your.blob.core.chinacloudapi.cn/sourceaudio.wav"/>
</voice>
</speak>
有关 SSML 结构和用法的详细信息,请参阅 语音合成标记语言 (SSML) 参考 文档。