什么是语音转换？（预览版）

注释

此功能目前处于公开预览状态。此预览版在没有服务级别协议的情况下提供，不建议用于生产工作负荷。某些功能可能不受支持或者受限。有关详细信息，请参阅适用于 Azure 预览版的补充使用条款。

语音转换是将给定音频的语音特征转换为目标语音扬声器的过程。语音转换后，生成的音频将保留源音频的语言内容和音调，而语音音调听起来类似于目标扬声器。

用户需要语音转换功能有三个原因：

语音转换可以使用不同的语音标识复制内容，同时保持原始音调和情感。例如，在教育中，教师可以录制自己阅读故事，语音转换可以使用预先签名的卡通人物的声音来传递这些故事。此方法保留了教师阅读的表达性，同时结合了卡通人物声音的独特音色。
另一个应用程序是多语言配音。当不同语音读取本地化内容时，语音转换可以将它们转换为统一语音，确保在保持最本地化的语音字符的同时，在所有语言之间获得一致的体验。
语音转换增强了对语音表现力的控制。通过转换各种说话风格，如采用独特的语气或表达夸张的情感，语音在表达中获得了更大的多功能性，在不同的场景中可以更加动态。

关键功能

语音转换（或语音更改器或语音转语音转换）是基于最先进的生成模型构建的，提供高质量的语音转换。它提供以下核心功能：

能力	DESCRIPTION
高扬声器相似性	捕获目标说话者的音调和声音特征。生成准确匹配目标语音的音频。
韵律保留	保持源音频的节奏、重音和语调。保持表现力和情感素质。
高音频保真度	生成逼真的自然音频。最小化伪影。
多语言支持	启用多语言语音转换。支持 91 个区域设置（与标准文本到语音区域设置支持相同）。请参阅用于语音转换的支持语音，以获取完整列表。

使用语音转换

可以将 Azure 语音转换与语音 SDK 或文本转语音 REST API 一起使用。

通过语音合成标记语言（SSML）中的<mstts:voiceconversion>标签，指定源音频 URL 和目标语音来进行转换。有关支持的目标语音的完整列表，请参阅语音转换支持的目标语音。

示例 SSML

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice xml:lang="en-US" xml:gender="Female" name="en-US-AvaMultilingualNeural">
        <mstts:voiceconversion url="https://your.blob.core.chinacloudapi.cn/sourceaudio.wav"/>
    </voice>
</speak>

有关 SSML 结构和用法的详细信息，请参阅语音合成标记语言（SSML）参考文档。

Last updated on 2026-06-09

什么是语音转换？ （预览版）

关键功能

使用语音转换

示例 SSML

相关内容

其他資源

什么是语音转换？（预览版）