什么是文本转语音?

本概述介绍了语音服务的文本转语音功能的优点和功能,该功能是 Azure AI 服务的一部分。

文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。 文本转语音功能也称为语音合成。 使用现成的类似于人的预生成神经网络声音。 有关支持的声音、语言和区域设置的完整列表,请参阅语音服务的语言和声音支持

核心功能

文本转语音包括以下功能:

功能 总结 演示
预生成的神经网络声音(在定价页面中称为“神经网络”) 高度自然的现成语音。 创建 Azure 帐户和语音服务订阅,然后使用语音 SDK 或访问 Speech Studio 门户,并选择预生成的神经网络声音即可开始使用。 请查看定价详细信息 查看语音库,确定适合你的业务需求的语音。

关于神经网络文本转语音功能的详细信息

文本转语音使用深度神经网络,使计算机的声音与人类录音几乎无法区分。 神经网络文本转语音可提供清晰的发音,显著减轻用户在与 AI 系统交互时的听力疲劳。

口语中的重音和语调模式称为韵律。 传统的文本转语音系统将韵律分解为单独的语言分析和声学预测步骤,这些步骤由独立的模型控制。 这可能会导致语音合成杂乱、声调不一。

下面是有关语音服务中的神经网络文本转语音功能的详细信息,以及它们如何克服传统的文本转语音系统的限制:

  • 预生成的神经网络语音 - Microsoft 神经网络文本转语音功能将使用深度神经网络来克服传统语音合成在口语的重音和语调方面的局限性。 韵律预测和语音合成以同步方式发生,使输出听起来更流畅且自然。 每个预生成的神经语音模型在 24 kHz 和高保真 48 kHz 下可用。 你可以使用神经网络声音执行以下操作:

    • 让与聊天机器人和语音助手的互动更加自然和吸引人。
    • 将电子书等数字文本转换为有声读物。
    • 增强车内导航系统。

    有关平台神经网络声音的完整列表,请参阅语音服务的语言和声音支持

  • 使用 SSML 优化文本转语音输出:语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,用于对文本转语音输出进行自定义。 使用 SSML,你可以调整音调、添加暂停、改进发音、更改语速、调整音量,以及将多个语音归属到单个文档。

    可以使用 SSML 定义自己的词典或切换到不同的说话风格。 使用多语言语音,还可通过 SSML 调整口语。 若要微调方案的语音输出,请参阅使用语音合成标记语言改进合成和使用音频内容创建工具进行语音合成。

  • 视素 - 视素是观察到的语音中的关键姿态,包括在产生特定音素时嘴唇、下巴和舌头的位置。 视素与语音和音素有很强的关联性。

    通过在语音 SDK 中使用视素事件,可以生成面部动画数据。 此数据用于制作唇读交流、教育、娱乐和客户服务等方面的面部动画。 视素目前仅支持 en-US(美式英语)神经网络声音

备注

我们计划在 2024 年停用传统/标准语音和非神经网络定制声音。 之后,我们将不再支持它们。

如果你的应用程序、工具或产品目前正在使用任何标准语音和定制声音,则必须迁移到神经网络版本。 有关详细信息,请参阅迁移到神经网络声音

入门

若要开始使用文本转语音,请参阅快速入门。 文本转语音通过语音 SDKREST API语音 CLI 提供。

提示

若要使用无代码方法将文本转换为语音,请尝试在 Speech Studio 中使用有声内容创作工具。

代码示例

GitHub 上提供了文本转语音的示例代码。 这些示例涵盖了大多数流行编程语言形式的文本转语音转换:

定价说明

计费字符

使用文本转语音功能时,将按照转换为语音的每个字符(包括标点)付费。 尽管 SSML 文档本身不计费,但用于调整文本转语音方式的可选元素(例如音素和音节)将算作计费字符。 下面列出了计费的内容:

  • 在请求的 SSML 正文中传递给文本转语音功能的文本
  • 请求正文的文本字段中所有 SSML 格式的标记,<speak><voice> 标记除外
  • 字母、标点、空格、制表符、标记和所有空白字符
  • Unicode 中定义的每个码位

有关详细信息,请参阅语音服务定价

重要

每个汉字算作两个计费字符,包括日文汉字、韩文汉字或其他语言中用到的汉字。

参考文档

后续步骤