共用方式為

什么是语音转换?

语音转换是将给定音频的语音特征转换为目标语音扬声器的过程。 语音转换后,生成的音频将保留源音频的语言内容和音调,而语音音调听起来类似于目标扬声器。

用户需要语音转换功能有 3 个原因:

  • 语音转换可以使用不同的语音标识复制内容,同时保持原始音调和情感。 例如,在教育中,教师可以录制自己阅读故事,语音转换可以使用预先设计的卡通人物的声音来传递这些故事。 此方法保留了教师阅读的表达性,同时结合了卡通人物声音的独特音色。
  • 另一个应用程序是多语言配音。 当不同语音读取本地化内容时,语音转换可以将它们转换为统一语音,确保在保持最本地化的语音字符的同时,在所有语言之间获得一致的体验。
  • 语音转换增强了对语音表现力的控制。 通过转换各种说话风格,如采用独特的语气或表达夸张的情感,语音在表达中获得了更大的多功能性,在不同的场景中可以更加动态。

关键功能

语音转换(或语音更改器或语音转语音转换)是基于最先进的生成模型构建的,提供高质量的语音转换。 它提供以下核心功能:

能力 DESCRIPTION
高扬声器相似性 捕获目标说话者的音调和声音特征。
生成准确匹配目标语音的音频。
韵律保留 保持源音频的节奏、重音和语调。
保持表现力和情感素质。
高音频保真度 生成逼真的自然音频。
最小化伪影。
多语言支持 启用多语言语音转换。
支持 91 个区域设置(与标准文本到语音区域设置支持相同)。
请参阅用于语音转换的支持语音,以获取完整列表。

使用语音转换

可以将 Azure AI 语音转换与语音 SDK 或文本转语音 REST API 一起使用。

通过语音合成标记语言(SSML)中的<mstts:voiceconversion>标签,指定源音频 URL 和目标语音来进行转换。 有关支持的目标语音的完整列表,请参阅 语音转换支持的目标语音

示例 SSML

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice xml:lang="en-US" xml:gender="Female" name="en-US-AvaMultilingualNeural">
        <mstts:voiceconversion url="https://your.blob.core.chinacloudapi.cn/sourceaudio.wav"/>
    </voice>
</speak>

有关 SSML 结构和用法的详细信息,请参阅 语音合成标记语言 (SSML) 参考 文档。