使用有声内容创作工具进行语音合成

你可以使用 Speech Studio 中的有声内容创作工具进行文本到语音合成,而无需编写任何代码。 可以按原样使用输出音频,也可以基于输出音频完成进一步的自定义操作。

为各种场景(例如,有声读物、新闻广播、视频解说和聊天机器人)生成非常自然的音频内容。 使用有声内容创作,可以微调文本转语音的声音,并高效地设计自定义的音频体验。

该工具基于语音合成标记语言 (SSML)。 可以实时调整或批量合成文本转语音的输出属性,如语音字符、语音风格、说话速度、发音和韵律。

  • 无代码方法:你可以使用有声内容创作工具进行文本到语音合成,而无需编写任何代码。 输出音频可能是所需的最终可交付内容。 例如,可以将输出音频用于播客或视频旁白。
  • 适合开发人员:可以收听输出音频并调整 SSML 以改进语音合成。 然后,可以使用语音 SDK语音 CLI 将 SSML 集成到应用程序中。 例如,可以使用 SSML 生成聊天机器人。

可以轻松访问各种语言和语音组合。 这些声音包括一流的预生成神经网络声音。

开始使用

Speech Studio 中的有声内容创作工具可免费使用,但你需要为使用语音服务付费。 若要使用该工具,需要使用 Azure 帐户登录并创建语音资源。 对于每个 Azure 帐户,都有免费的每月语音配额,其中包括 50 万个预生成神经语音字符(在定价页面上称为“神经”)。 通常,每月分配的数量足以满足一支 3-5 人的小型内容团队的需求。

接下来的部分介绍如何创建 Azure 帐户并获取语音资源。

步骤 1:创建 Azure 帐户

若要使用音频内容创建,需要 Microsoft 帐户Azure 帐户

Azure 门户是用于管理 Azure 帐户的集中位置。 你可以创建语音资源、管理产品访问以及监视从简单 Web 应用到复杂云部署的所有内容。

步骤 2:创建语音资源

注册 Azure 帐户后,需要在 Azure 帐户中创建语音资源以访问语音服务。 在 Azure 门户中创建语音资源。 有关详细信息,请参阅创建多服务资源

部署新的语音资源需要花费片刻时间。 部署完成后,可以开始使用音频内容创建工具。

注意

如果计划使用神经语音,请确保在支持神经语音的区域中创建资源。

步骤 3:通过 Azure 帐户和语音资源登录音频内容创建

  1. 获得 Azure 帐户和语音资源后,登录到 Speech Studio,然后选择“有声内容创作”。

  2. 选择要使用的 Azure 订阅和语音资源,然后选择“使用资源”。

    下次登录音频内容创建时,你会直接链接到当前语音资源下的音频工作文件。 可以在 Azure 门户中检查 Azure 订阅的详细信息和状态。

    如果你没有可用的语音资源,但你是 Azure 订阅的所有者或管理员,则可以通过选择“创建新资源”在 Speech Studio 中创建语音资源。

    如果你具有特定 Azure 订阅的用户角色,则可能无权创建新的语音资源。 若要获取访问权限,请与管理员联系。

    任何时候若要切换语音资源,请选择页面顶部的“设置”。

    若要切换目录,请选择“设置”或转到配置文件。

使用工具

下图显示了微调文本转语音输出的过程。

Diagram of the sequence of steps for fine-tuning text to speech outputs.

下面介绍了上图中的每个步骤:

  1. 选择要使用的语音资源。

  2. 使用纯文本或 SSML 脚本创建音频优化文件。 将内容输入或上传到“有声内容创作”。

  3. 选择脚本内容的语音和语言。 有声内容创作包括所有预生成文本转语音声音。 你可以使用预生成的神经网络声音。

  1. 选择要预览的内容,然后选择“播放”(三角形图标)来预览默认的合成输出。

    如果你对文本进行了任何更改,请选择“停止”图标,然后再次选择“播放”以使用已更改的脚本重新生成音频。

    通过调整发音、停顿、音调、速率、语调、语音风格等来改进输出。 有关选项的完整列表,请参阅语音合成标记语言

  1. 保存并导出优化音频

    在系统中保存优化音轨后,可继续工作并迭代输出。 如果对输出满意,可使用导出功能创建音频创建任务。 可查看导出任务的状态,并下载用于应用和产品的输出。

创建音频优化文件

可以通过两种方式中的任一种将内容引入音频内容创建工具:

  • 选项 1

    1. 选择“新建”>“文本文件”以创建新的音频优化文件。

    2. 在编辑窗口输入或粘贴内容。 每个文件的允许字符数为 20,000 或更少。 如果脚本包含的字符多于 20,000 个,则可以使用选项 2 将内容自动拆分为多个文件。

    3. 选择“保存” 。

  • 方法 2

    1. 选择“上传”>“文本文件”以导入一个或多个文本文件。 支持纯文本和 SSML。

      如果脚本文件超过 20,000 个字符,请按段落、字符或正则表达式拆分内容。

    2. 上传文本文件时,请确保文件满足这些要求:

      属性 说明
      文件格式 纯文本 (.txt)*
      SSML 文本 (.txt)**
      不支持 Zip 文件。
      编码格式 UTF-8
      文件名 每个文件必须拥有唯一的名称。 不支持重复文件。
      文本长度 字符限制为 20,000。 如果文件超出限制,请根据工具中的说明拆分文件。
      SSML 限制 每个 SSML 文件只能包含一条 SSML。

      * 纯文本示例

      Welcome to use Audio Content Creation to customize audio output for your products.
      

      ** SSML 文本示例:

      <speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
          <voice name="en-US-JennyNeural">
          Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
          </voice>
      </speak>
      

导出优化音频

查看音频输出并且对调整和优化都满意后,就可以导出音频。

  1. 选择“导出”以创建音频创建任务。

    建议使用“导出到音频库”,以便在云中轻松存储、查找和搜索音频输出。 可通过 Azure Blob 存储更好地与应用程序集成。 也可以直接将音频下载到本地磁盘。

  2. 选择优化音频的输出格式。 下表列出了支持的音频格式和采样率:

    格式 8 kHz 采样率 16 kHz 采样率 24 kHz 采样率 48 kHz 采样率
    wav riff-8khz-16bit-mono-pcm riff-16khz-16bit-mono-pcm riff-24khz-16bit-mono-pcm riff-48khz-16bit-mono-pcm
    mp3 空值 audio-16khz-128kbitrate-mono-mp3 audio-24khz-160kbitrate-mono-mp3 audio-48khz-192kbitrate-mono-mp3
  3. 若要查看任务的状态,请选择“任务列表”选项卡。

    如果任务失败,请参阅详细信息页获取完整的报表。

  4. 完成该任务后,可以在“音频库”窗格上下载音频。

  5. 选择要下载的文件,然后单击“下载”。

    现在,你可以在你的应用或产品中使用自定义的优化音频。

配置 BYOS 和对 Blob 的匿名公共读取访问

如果失去对自带存储 (BYOS) 的访问权限,你将无法查看、创建、编辑或删除文件。 若要恢复访问权限,需要在 Azure 门户中删除当前存储并重新配置 BYOS。 若要详细了解如何配置 BYOS,请参阅将 Azure 存储装载为应用服务中的本地共享

配置 BYOS 权限后,需要配置对相关容器和 Blob 的匿名公共读取访问。 否则,Blob 数据不可用于公共访问,并且 Blob 中的词典文件将不可访问。 默认情况下,容器的公共访问设置处于禁用状态。 若要向匿名用户授予对容器及其 Blob 的读取访问权限,请先将“允许 Blob 公共访问”设置为“已启用”以允许对存储帐户的公共访问,然后设置容器(名为 acc-public-files)的公共访问级别(仅限对 Blob 的匿名读取访问)。 若要详细了解如何配置匿名公共读取访问,请参阅配置对容器和 Blob 的匿名公共读取访问

添加或删除音频内容创建用户

如果有多个用户要使用音频内容创建,则可以向他们授予对 Azure 订阅和语音资源的访问权限。 如果将用户添加到 Azure 订阅,则用户可以访问 Azure 订阅下的所有资源。 但如果仅将用户添加到语音资源,则用户只有权访问语音资源,而无权访问此 Azure 订阅下的其他资源。 有权访问语音资源的用户可以使用音频内容创建工具。

你向其授予访问权限的用户需要设置 Microsoft 帐户。 如果他们没有 Microsoft 帐户,可以在几分钟内创建一个。 他们可以使用现有电子邮件并将其关联到 Microsoft 帐户,也可以创建并使用 Outlook 电子邮件地址作为 Microsoft 帐户。

将用户添加到语音资源

若要将用户添加到语音资源,以便他们可以使用音频内容创建,请执行以下操作:

  1. Azure 门户中,选择“所有服务”。
  2. 然后,选择“Azure AI 服务”并导航到特定的语音资源。

    注意

    你还可以为整个资源组、订阅或管理组设置 Azure RBAC。 为此,请选择所需的作用域级别,然后导航到所需的项目(例如,选择“资源组”,然后单击到所需的资源组)。

  3. 在左侧导航窗格上,选择“访问控制(IAM)”。
  4. 选择“添加”->“添加角色分配”。
  5. 在下一屏幕中的“角色”选项卡上,选择要添加的角色(在本例中为“所有者”)。
  6. 在“成员”选项卡上,输入用户的电子邮件地址,并在目录中选择用户的姓名。 电子邮件地址必须关联到 Microsoft Entra ID 信任的 Microsoft 帐户。 用户可以使用个人电子邮件地址轻松注册 Microsoft 帐户
  7. 在“查看 + 分配”选项卡上,选择“查看 + 分配”,以分配角色 。

下面是接下来会发生的情况:

电子邮件邀请会自动发送给用户。 用户可以通过在电子邮件中选择“接受邀请”>“接受加入 Azure”进行接受。 他们随后会重定向到 Azure 门户。 他们无需在 Azure 门户中执行进一步的操作。 片刻之后,系统会在语音资源范围内为用户分配角色,这使其有权访问此语音资源。 如果用户未收到邀请电子邮件,你可以在“角色分配”下搜索其帐户,然后进入其配置文件。 查找“标识”>“已接受邀请”,然后选择“(管理)”以重新发送电子邮件邀请。 还可以将邀请链接复制并发送给用户。

用户现在访问或刷新音频内容创建产品页面,并使用其 Microsoft 帐户进行登录。 他们在所有语音产品中选择“音频内容创建”块。 他们在弹出窗口或右上角的设置中选择语音资源。

如果他们找不到可用的语音资源,则可以进行检查以确保处于正确目录中。 为此,他们在右上方选择帐户配置文件,然后选择“当前目录”旁的“切换”。 如果有多个目录可用,则意味着他们有权访问多个目录。 他们可以切换到不同的目录并转到“设置”,以查看正确的语音资源是否可用。

位于同一语音资源中的用户将在音频内容创建工具中看到彼此的工作。 如果希望每个单独用户在音频内容创建中具有唯一的专用工作区,请为每个用户创建新的语音资源,并为每个用户提供对语音资源的唯一访问权限。

从语音资源中删除用户

  1. 在 Azure 门户中搜索“Azure AI 服务”,然后选择要从中移除用户的语音资源。

  2. 选择“访问控制(IAM)”,然后选择“角色分配”选项卡以查看此语音资源的所有角色分配。

  3. 选择要删除的用户,选择“删除”,然后选择“确定”。

    Screenshot of the 'Remove' button on the 'Remove role assignments' pane.

使用户能够向他人授予访问权限

如果你要允许某个用户向其他用户授予访问权限,则需要为他们分配语音资源的所有者角色,并将用户设置为 Azure 目录读者。

  1. 将用户添加为语音资源的所有者。 有关详细信息,请参阅将用户添加到语音资源

    Screenshot showing the 'Owner' role on the 'Add role assignment' pane.

  2. Azure 门户中,选择左上角的折叠菜单,选择“Microsoft Entra ID”,然后选择“用户”

  3. 搜索用户的 Microsoft 帐户,转到其详细信息页面,然后选择“分配的角色”。

  4. 选择“添加分配”>“目录读者”。 如果“添加分配”按钮不可用,则表示你没有访问权限。 只有此目录的全局管理员可以向用户添加分配。

后续步骤