使用音频内容创建工具的文本转语音

2025-09-01

可以在 Speech Studio 中使用音频内容创建工具进行文本转语音，而无需编写任何代码。

为各种场景（例如，有声读物、新闻广播、视频解说和聊天机器人）生成非常自然的音频内容。创建音频内容后，可以有效地将文本微调到语音语音，并设计自定义的音频体验。

该工具基于语音合成标记语言 (SSML)。可以实时调整或批量合成文本转语音的输出属性，如声线、语音风格、说话速度、发音和韵律。

无代码方法：可以使用音频内容创建工具进行文本到语音合成，而无需编写任何代码。输出音频可能是所需的最终可交付内容。例如，可以将输出音频用于播客或视频旁白。
适合开发人员：可以收听输出音频并调整 SSML 以改进语音合成。然后，可以使用语音 SDK 或语音 CLI 将 SSML 集成到应用程序中。

可以轻松访问各种语言和语音组合。这些语音包括最先进的标准语音。

先决条件

有效的 Azure 订阅。创建一个试用版。
在订阅中创建资源的权限。
语音资源。在 Azure 门户或语音工作室中创建一个。

使用音频内容创建工具

下图显示了微调文本转语音输出的过程。

若要使用音频内容创建工具，请执行以下作：

登录到 Speech Studio，然后选择“ 音频内容创建”。
选择要使用的 Azure 订阅和语音资源，然后选择“使用资源”。

注意

如果要返回到音频内容创建，可以选择要使用的其他语音资源。转到页面右上角的帐户设置。
使用纯文本或 SSML 脚本创建音频优化文件。在音频内容创建中输入或上传内容。
选择脚本内容的语音和语言。音频内容创建包括所有标准文本转语音。可以使用标准语音或自定义语音。

注意

自定义语音访问根据资格和使用条件受到限制。请求对引入表单的访问权限。
选择要预览的内容，然后选择“播放”（通过三角形图标）来预览默认的合成输出。

如果你对文本进行了任何更改，请选择“停止”图标，然后再次选择“播放”以使用已更改的脚本重新生成音频。

通过调整发音、停顿、音调、速率、语调、语音风格等来改进输出。有关选项的完整列表，请参阅语音合成标记语言。
保存并导出优化音频。

在系统中保存优化音轨后，可继续工作并迭代输出。如果对输出满意，可使用导出功能创建音频创建任务。可查看导出任务的状态，并下载用于应用和产品的输出。

创建音频优化文件

可以通过以下两种方式之一将内容引入音频内容创建工具：

选项 1：创建新的音频优化文件

选择“新建”“文本文件”以创建新的音频优化文件。
在编辑窗口输入或粘贴内容。每个文件的允许字符数为 20,000 或更少。如果脚本包含的字符多于 20,000 个，则可以使用选项 2 将内容自动拆分为多个文件。
选择“保存”。

选项 2：上传音频优化文件

选择“上传”“文本文件”以导入一个或多个文本文件。支持纯文本和 SSML。

如果脚本文件超过 20,000 个字符，请按段落、字符或正则表达式拆分内容。

上传文本文件时，请确保文件满足这些要求：

属性	说明
文件格式	纯文本 (.txt) 或 SSML 文本 (.txt) 不支持 Zip 文件。
编码格式	UTF-8
文件名	每个文件必须拥有唯一的名称。不支持重复文件。
文本长度	字符限制为 20,000。如果文件超出限制，请根据工具中的说明拆分文件。
SSML 限制	每个 SSML 文件只能包含一条 SSML。

下面是纯文本示例：

Welcome to use audio content creation to customize audio output for your products.

下面是 SSML 示例：

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use audio content creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

导出优化音频

查看音频输出并且对调整和优化都满意后，就可以导出音频。

选择“导出”以创建音频创建任务。

建议使用“导出到音频库”，以便在云中轻松存储、查找和搜索音频输出。可通过 Azure Blob 存储更好地与应用程序集成。也可以直接将音频下载到本地磁盘。

选择优化音频的输出格式。下表列出了支持的音频格式和采样率：

格式	8 kHz 采样率	16 kHz 采样率	24 kHz 采样率	48 kHz 采样率
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	空值	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

若要查看任务的状态，请选择“任务列表”选项卡。

如果任务失败，请参阅详细信息页获取完整的报表。
完成该任务后，可以在“音频库”窗格上下载音频。
选择要下载的文件，然后单击“下载”。

现在，你可以在你的应用或产品中使用自定义的优化音频。

配置 BYOS 和对 Blob 的匿名公共读取访问

如果失去对自带存储 (BYOS) 的访问权限，你将无法查看、创建、编辑或删除文件。若要恢复访问权限，需要在 Azure 门户中删除当前存储并重新配置 BYOS。若要详细了解如何配置 BYOS，请参阅将 Azure 存储装载为应用服务中的本地共享。

配置 BYOS 权限后，需要配置对相关容器和 Blob 的匿名公共读取访问。否则，Blob 数据不可用于公共访问，并且 Blob 中的词典文件将不可访问。默认情况下，容器的公共访问设置处于禁用状态。若要向匿名用户授予对容器及其 Blob 的读取访问权限，请先设置“允许 Blob 匿名访问”以允许对存储帐户进行公共访问，然后设置容器（名为 acc-public-files）的公共访问级别（仅限 Blob 的匿名读取访问）。若要详细了解如何配置匿名公共读取访问，请参阅配置对容器和 Blob 的匿名公共读取访问。

添加或删除音频内容创建用户

如果多个用户想要使用音频内容创建，可以向他们授予对 Azure 订阅和语音资源的访问权限。如果将用户添加到 Azure 订阅，则用户可以访问 Azure 订阅下的所有资源。但如果仅将用户添加到语音资源，则用户只有权访问语音资源，而无权访问此 Azure 订阅下的其他资源。有权访问语音资源的用户可以使用音频内容创建工具。

你向其授予访问权限的用户需要设置 Microsoft 帐户。如果他们没有 Microsoft 帐户，可以在几分钟内创建一个。他们可以使用现有电子邮件并将其关联到 Microsoft 帐户，也可以创建并使用 Outlook 电子邮件地址作为 Microsoft 帐户。

将用户添加到语音资源

若要将用户添加到语音资源，以便他们可以使用音频内容创建，请执行以下作：

在 Azure 门户中，从左窗格中选择 “所有服务 ”，然后搜索 Azure AI 服务 或语音。
选择语音资源。

注意

你还可以为整个资源组、订阅或管理组设置 Azure RBAC。为此，请选择所需的作用域级别，然后导航到所需的项目（例如，选择“资源组”，然后选择资源组）。
在左窗格中选择 “访问控制”（IAM ）。
选择“添加”“添加角色分配”。
在下一个屏幕的“角色”选项卡上，选择要添加的角色（例如“所有者”）。
在“成员”选项卡上，输入用户的电子邮件地址，并在目录中选择用户的姓名。电子邮件地址必须关联到 Microsoft Entra ID 信任的 Microsoft 帐户。用户可以使用个人电子邮件地址轻松注册 Microsoft 帐户。
在“查看 + 分配”选项卡上，选择“查看 + 分配”，以分配角色。

下面是接下来会发生的情况：

电子邮件邀请会自动发送给用户。

注意

如果用户未收到邀请电子邮件，你可以在“角色分配”下搜索其帐户，然后进入其配置文件。查找“标识”“已接受邀请”，然后选择“(管理)”以重新发送电子邮件邀请。还可以将邀请链接复制并发送给用户。
用户可以通过在电子邮件中选择“接受邀请”“接受加入 Azure”进行接受。
他们随后会重定向到 Azure 门户。他们无需在 Azure 门户中执行进一步的操作。
片刻之后，系统会在语音资源范围内为用户分配角色，这使其有权访问此语音资源。

用户现在访问或刷新音频内容创建产品页面，并使用其Microsoft帐户登录。他们在所有语音产品中选择“音频内容创建”块。他们在弹出窗口或右上角的设置中选择语音资源。

如果他们找不到可用的语音资源，则可以进行检查以确保处于正确目录中。为此，他们在右上方选择帐户配置文件，然后选择“当前目录”旁的“切换”。如果有多个目录可用，则意味着他们有权访问多个目录。他们可以切换到不同的目录并转到“设置”，以查看正确的语音资源是否可用。

在同一语音资源中的用户可在音频内容创建工具中看到彼此的工作。如果希望每个用户在音频内容创建中具有唯一和专用的工作区，请创建新的语音资源。

从语音资源中删除用户

若要从语音资源中删除用户的权限，请执行以下操作：

在 Azure 门户中搜索“Azure AI 服务”，然后选择要从中移除用户的语音资源。
选择“访问控制(IAM)”，然后选择“角色分配”选项卡以查看此语音资源的所有角色分配。
选择要删除的用户，选择“删除”，然后选择“确定”。

使用户能够向他人授予访问权限

如果你要允许某个用户向其他用户授予访问权限，则需要为他们分配语音资源的所有者角色，并将用户设置为 Azure 目录读者。

将用户添加为语音资源的所有者。有关详细信息，请参阅将用户添加到语音资源。
在 Azure 门户中，选择左上角的折叠菜单，选择“Microsoft Entra ID”，然后选择“用户”。
搜索用户的 Microsoft 帐户，转到其详细信息页面，然后选择“分配的角色”。
选择“添加分配”“目录读者”。如果“添加分配”按钮不可用，则表示你没有访问权限。你必须具有“所有者”或“用户访问管理员”角色才能为用户分配角色。

语音合成标记语言 (SSML)

通过