什么是文本转语音？

本概述介绍了语音服务的文本转语音功能的优点和功能，该功能是 Azure AI 服务的一部分。

文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。文本转语音功能也称为语音合成。使用即开即用的类人标准语音。有关支持的声音、语言和区域设置的完整列表，请参阅语音服务的语言和声音支持。

语音服务提供标准（神经）语音选项：

标准语音：即开即用的高质量基于神经网络的语音，支持 100 多种语言和地区设置

有关可用语音和语言的完整列表，请参阅语言和语音支持。

开始

如需了解更全面的教程和示例：

文本转语音快速入门 - 使用多种语言完成教程
语音 SDK 文档 - 完整 SDK 参考和示例
REST API 参考 - 基于 HTTP 的集成
语音 CLI - 命令行工具

提示

若要使用无代码方法将文本转换为语音，请尝试在 Speech Studio 中使用有声内容创作工具。

神经文本转语音功能

文本转语音使用深度神经网络使计算机语音几乎与人类录音不区分。通过清晰的表达，神经文本到语音技术可减少 AI 交互期间的听觉疲劳。

主要功能

功能	总结	演示
标准语音（在定价页上显示为“神经网络声音”）	高度自然的开箱即用语音。创建 Azure 订阅和语音资源，然后使用语音 SDK 或访问语音工作室门户并选择标准语音以开始使用。请查看定价详细信息。	查看语音库，确定适合你的业务需求的语音。

高级功能

实时语音合成：使用语音 SDK 或 REST API 使用标准语音将文本转换为语音。

标准语音：Azure 语音使用深度神经网络来克服传统语音合成对口语中压力和语调的限制。韵律预测和语音合成以同步方式发生，使输出听起来更流畅且自然。每个标准语音模型以 24 kHz 和高保真度 48 kHz 提供。你可以使用神经网络声音执行以下操作：
- 让与聊天机器人和语音助手的互动更加自然和吸引人。
- 将电子书等数字文本转换为有声读物。
- 增强车内导航系统。
有关标准 Azure 语音神经语音的完整列表，请参阅语音服务的语言和语音支持。
使用 SSML 改进文本转语音输出：语音合成标记语言 (SSML) 是一种基于 XML 的标记语言，用于对文本转语音输出进行自定义。使用 SSML，你可以调整音调、添加暂停、改进发音、更改语速、调整音量，以及将多个语音归属到单个文档。

可以使用 SSML 定义自己的词典或切换到不同的说话风格。使用多语言语音，还可通过 SSML 调整口语。若要改进场景的语音输出，请参阅使用语音合成标记语言改进合成和使用有声内容创作工具进行语音合成。
视素 - 视素是观察到的语音中的关键姿态，包括在产生特定音素时嘴唇、下巴和舌头的位置。视素与语音和音素有很强的关联性。

通过在语音 SDK 中使用视素事件，可以生成面部动画数据。此数据用于制作唇读交流、教育、娱乐和客户服务等方面的面部动画。视素目前仅支持 en-US（美式英语）神经语音。

代码示例

GitHub 上提供了文本转语音的示例代码。这些示例涵盖了大多数流行编程语言形式的文本转语音转换：

定价说明

计费字符

使用文本转语音功能时，计费基于每个成功处理的请求中的字符总数。此计数包括所有字符/字母、数字、空格和标点符号;无论是否生成音频输出。即使由于所选语音语言与输入文本不匹配而未生成语音，仍会产生费用。下面列出了计费的内容：

在请求的 SSML 正文中传递给文本转语音功能的文本
请求正文的文本字段中所有 SSML 格式的标记，<speak> 和 <voice> 标记除外
字母、标点、空格、制表符、标记和所有空白字符
Unicode 中定义的每个码位

有关详细信息，请参阅语音服务定价。

重要

每个汉字计费时算作两个字符，包括日文中的汉字（kanji）、韩文中的汉字（hanja），以及其他语言中使用的汉字。

监控 Azure 文本转语音指标

监视与文本转语音服务关联的关键指标对于管理资源使用和控制成本至关重要。本部分将指导你在 Azure 门户中查找使用情况信息并提供关键指标的详细定义。有关 Azure Monitor 指标的详细信息，请参阅 Azure Monitor 指标概述。

如何在 Azure 门户中查找使用情况信息

为了有效管理 Azure 资源，必须定期访问和查看使用情况信息。下面介绍如何查找使用情况信息：

转到 Azure 门户，然后使用 Azure 帐户登录。
导航到“资源”并选择要监视的资源。
从左侧菜单中的监视下选择指标。
自定义指标视图。

可以按资源类型、指标类型、时间范围和其他参数筛选数据，以创建符合监视需求的自定义视图。此外，还可以通过选择“保存到仪表板”将指标视图保存到仪表板，以便轻松访问常用指标。
设置警报。

若要更有效地管理使用情况，请从左侧菜单导航至“监视”下的“警报”选项卡来设置警报。当使用量达到特定阈值时，警报会通知你，这有助于防止意外费用。

指标的定义

下表汇总了 Azure 文本转语音的关键指标。

指标名称	描述
合成字符	跟踪转换为语音的字符数，包括标准语音和自定义语音。有关计费字符的详细信息，请参阅计费字符。
语音模型托管小时数	跟踪自定义语音模型托管的总时间（以小时为单位）。
语音模型训练分钟数	测量训练自定义语音模型的总时间（以分钟为单位）。

参考文档

后续步骤

Last updated on 2026-07-06