语音服务配额和限制

本文包含关于 Azure AI 服务中语音服务的配额和限制的快速参考和详细说明。此信息适用于服务的所有定价层。它也包含避免请求限制的一些最佳做法。

有关免费 (F0) 定价层，还请参见定价页中的每月津贴。

配额与限制参考

以下部分提供了适用于语音服务的配额和限制的快速指南。

有关标准 (S0) 语音资源的可调整配额的信息，请参阅其他说明、最佳做法和调整说明。免费 (F0) 语音资源的配额和限制不可调整。

重要

如果将语音 AI 服务资源从“免费(F0)”定价层切换到“标准(S0)”定价层，则相应配额的更改可能需要长达数小时的时间。

每个资源的语音转文本配额和限制

本部分介绍了每个语音资源的语音转文本配额和限制。有关可调整配额的信息，请参阅详细说明、配额调整和最佳做法。

实时语音转文本和语音翻译

你可以将实时语音转文本与语音 SDK 或适用于短音频的语音转文本 REST API 一起使用。

重要

这些限制适用于并发实时语音转文本请求和语音翻译请求的总和。例如，如果有 60 个并发语音转文本请求和 40 个并发语音翻译请求，则达到 100 个并发请求的限制。

配额	免费 (F0)	标准 (S0)
并发请求限制 - 基础模型终结点	1 此限制不可调整。	100（默认值）对于标准 (S0) 资源，费率是可调整的。请参阅其他说明、最佳做法和调整说明。
并发请求限制 - 自定义终结点	1 此限制不可调整。	100（默认值）对于标准 (S0) 资源，费率是可调整的。请参阅其他说明、最佳做法和调整说明。
实时分割聚类的最大音频长度。	不适用	每个文件 240 分钟

快速转录

配额	免费 (F0)	标准 (S0)
最大音频输入文件大小	不适用	< 300 MB
最大音频长度	不适用	< 每个文件 120 分钟
每分钟最大请求数	不适用	600

批量听录

配额	免费 (F0)	标准 (S0)
语音转文本 REST API 的限制	不可用于 F0	每 10 秒 100 个请求（每分钟 600 个请求）
最大音频输入文件大小	不适用	1GB
每个容器的最大 Blob 数	不适用	一万
每个听录请求的最大文件数（当使用多个内容 URL 作为输入时）。	不适用	1000
启用了分割聚类的听录内容最大音频长度。	不适用	每个文件 240 分钟

模型自定义

创建自定义语音模型时，此表中的限制适用于每个语音资源。

配额	免费 (F0)	标准 (S0)
REST API 限制	每 10 秒 100 个请求（每分钟 600 个请求）	每 10 秒 100 个请求（每分钟 600 个请求）
每个语音资源的自定义模型部署数量上限	1	50
语音数据集的最大数目	2	500
数据导入的最大声学数据集文件大小	2 GB	2 GB
数据导入的最大语言数据集文件大小	200 MB	1.5 GB
数据导入的最大发音数据集文件大小	1 KB	1 MB
使用 `text` API 请求中的参数时的最大文本大小	200 KB	500 KB

每个资源的文本转语音配额和限制

本部分介绍了每个语音资源的文本转语音配额和限制。有关可调整配额的信息，请参阅详细说明、配额调整和最佳做法。

实时文本转语音

可以使用语音 SDK 或文本转语音 REST API 来进行实时文本转语音。除非另有说明，否则限制不可调整。

配额	免费 (F0)	标准 (S0)
标准语音的每个时间段的最大事务数。	每 60 秒 20 笔交易此限制不可调整。	每秒 200 个事务 (TPS)（默认值）对于标准 (S0) 资源，此限制可上调至 1000 TPS。请参阅其他说明、最佳做法和调整说明。
每个请求已生成的最大音频长度	10 分钟	10 分钟
SSML 中不同 `<voice>` 和 `<audio>` 标记的最大总数	50	50
WebSocket 每轮最大 SSML 消息大小	64 KB	64 KB

备注

大多数文本转语音标准声音的 HTTP 429 错误是由所选区域中特定声音的后端服务容量受限（而不是配额限制）引起的。增加配额无法解决这些错误。为获得最佳效果，请使用其本机区域中的声音，或在当前区域中选择更流行的声音。

有声内容创作工具

配额	免费 (F0)	标准 (S0)
文件大小（SSML 的纯文本）¹	每个文件 3,000 个字符	每个文件 20,000 个字符
文件大小（词典文件）²	每个文件 30 KB	每个文件 100 KB
SSML 中的可计费字符	每个文件 15,000 个字符	每个文件 100,000 个字符
导出到音频库	1 个并发任务	不适用

¹ 限制仅适用于 SSML 的纯文本，并且不包括标记。

² 词典文件的字符不收费。只有 SSML 的词典元素才会计为可计费字符。要了解详细信息，请参阅可计费字符。

详细说明、配额调整和最佳做法

某些语音服务配额是可调整的。本部分提供了其他说明、最佳做法和调整说明。

对于标准 (S0) 资源，以下配额可调整。免费 (F0) 请求限制不可调整。

基础模型终结点和自定义终结点的语音转文本并发请求限制
快速转录每分钟最大请求数
语音翻译并发请求限制
标准语音的每个时间段的文本转语音的最大事务数

在请求增加配额（如果适用）之前，请检查您当前的 TPS（每秒事务数）或 TPM（每分钟令牌数），并确认确实需要增加配额。

备注

批量听录是一个异步过程，作业在队列中逐个处理。因此，增加配额不会提高听录性能。有关性能改进，请参阅 Batch 听录最佳做法。

语音服务使用自动缩放技术在点播模式下引入所需的计算资源。同时，语音服务会尝试通过不保留过多的硬件容量来降低成本。

我们来看一个示例。假设你的应用程序收到响应代码 429，则表示请求过多。即使工作负载在配额和限制参考定义的限制范围内，应用程序也会接收此响应。最可能的解释是，语音服务正在按你的需求进行扩展，并且尚未达到所需规模。因此，该服务不会立即提供足够的资源来处理请求。在这种情况下，增加配额将无济于事。在大多数情况下，语音服务将会很快进行纵向扩展，并将解决导致响应代码 429 的问题。

备注

最佳做法是，每个实现都应正常处理 429 个错误，并采用重试逻辑来确保最佳性能并处理自动缩放。请在请求其他配额之前考虑这一点。有关更多详细信息，请参阅一般最佳做法。

在自动缩放期间缓解限制的常规最佳做法

若要尽量减少与限制相关的问题，可使用以下方法：

在应用程序中实现重试逻辑以处理 429 错误。
避免工作负载的急剧变化。逐步增大工作负载。例如，假设应用程序使用文本转语音，且当前工作负载为 5 TPS。接下来，你将负载增加到 20 TPS（即原来的四倍）。语音服务立即开始扩展以满足新负载，但无法在一秒钟内根据需要进行缩放。某些请求收到响应代码 429（请求太多）。
测试不同负载增加模式。有关详细信息，请参阅工作负载模式示例。
在不同的区域中创建更多语音服务资源，并在区域间分配工作负载。（在相同的区域中创建多个语音服务资源不会影响性能，因为所有资源都将由同一后端群集提供服务）。

下一部分介绍调整配额的特定案例。

工作负载模式最佳做法的示例

下面是一个可采用的好方法的常规示例。它仅作为一个模板，你可以根据需要进行调整，以供你自己使用。

假设语音服务资源的并发请求限制设置为 300。从 20 个并发连接启动工作负载，并按每 90-120 秒 20 个并发连接的速度增加负载。如果收到太多请求（响应代码 429），则控制服务响应并实现回退的逻辑（减少负载）。然后，在一分钟内重试负载增加，如果仍不起作用，请在两分钟后重试。对于间隔使用1-2-4-4 分钟模式。

通常，最好在投入生产之前测试工作负载和工作负载模式。

语音转文本：提高实时语音转文本并发请求限制

默认情况下，对于基础模型中的每个资源和自定义模型中的每个自定义终结点，并发实时语音转文本和语音翻译请求的总和均限制为 100 个。对于标准定价层，可以增加此数量。在提交请求之前，请确保熟悉本文前面讨论的内容，比如减轻限速的最佳做法。

备注

基础模型和自定义模型的并发请求限制需要单独调整。语音服务资源可以与托管许多自定义模型部署的多个自定义终结点相关联。如果需要，每个自定义终结点的限制调整必须单独进行请求。

提高并发请求的限制不会直接影响成本。语音服务使用要求你只为使用内容付费的付款模型。此限制定义了服务在开始限制请求之前可缩放的程度。

不能在 Azure 门户、命令行工具或 API 请求中查看并发请求限制参数的现有值。若要验证现有值，请创建 Azure 支持请求。

准备所需信息

有关如何获取所需的常规资源信息的说明，请参阅创建和提交配额增加请求。

若要为自定义语音创建增加请求，需要提供以下附加信息：

自定义终结点 ID

如何获取自定义语音终结点的信息：

转到 Speech Studio 门户。
如有必要，请登录，并转到“自定义语音”。
选择项目，然后转到“部署”。
选择所需终结点。
复制并保存以下字段的值：
- 终结点 ID

创建配额增加请求

按照创建和提交配额增加请求中所述的步骤使用收集来的信息来创建请求。

快速听录：增加每分钟的最大请求数限制

准备所需信息

有关如何获取所需的常规资源信息的说明，请参阅创建和提交配额增加请求。

若要为快速听录创建增加请求，需要提供以下附加信息：

每个 API 请求的平均音频长度

发送到 API 的每个请求的平均音频长度。示例：5 minutes/request。根据要处理的工作负荷提供估算值。

创建配额增加请求

按照创建和提交配额增加请求中所述的步骤使用收集来的信息来创建请求。

文本转语音：提高实时 TPS 限制

对于标准定价层，可以增加此数量。在提交请求之前，请确保熟悉本文前面讨论的内容，比如减轻限速的最佳做法。

估算需求

使用量低于 10,000 英镑/月：通常，32 TPS 足够，假设峰值使用量在平均值的 10 倍以内。
默认限制：200 TPS 默认可用，超过大多数用例。

示例：呼叫中心方案
如果要建立一个具有 1,000 个并发通话的呼叫中心：

假设代理在一半时间发言。
平均 TTS 响应长度为 5 秒。

必需的 TPS：1000 个调用/（2×5 秒） = 100 TPS

TPS 增加请求所需的信息
请提供以下详细信息：

峰值 TPS：
平均 TPS：
平均 TTS 请求长度（以字符为单位）：

使用此数据，可以使用以下公式估算每月 TTS 使用情况：
每月使用率=平均 TPS×Request Length×3600×24×30
将结果乘以每百万字符 15 元的单价来估算每月成本。

备注

如果估计的使用量显著超过预算，则可能会过度估计你的需求。

成本注意事项
增加并发请求限制 不会直接影响 成本。仅为所用的部分付费。限制只是定义服务在开始限流之前可以扩展到的程度。

不能在 Azure 门户、命令行工具或 API 请求中查看并发请求限制参数的现有值。若要验证现有值，请创建 Azure 支持请求。

准备所需信息

有关如何获取所需的常规资源信息的说明，请参阅创建和提交配额增加请求。

若要为标准语音创建增加请求，需要提供以下附加信息：

请求增加的语音名称

可在此处找到所有语音名称的列表：文本转语音语言

创建配额增加请求

按照创建和提交配额增加请求中所述的步骤使用收集来的信息来创建请求。

创建和提交配额增加请求

若要获取增加配额请求所需的资源信息，请执行以下步骤：

转到 Azure 门户。
选择要增加并发请求限制的资源。
在“资源管理”组中，选择“属性”。
复制并保存以下字段的值：
- 订阅 ID
- 资源 ID
- 位置（终结点区域）

Last updated on 2026-01-23

通过

语音服务配额和限制

配额与限制参考

每个资源的语音转文本配额和限制

实时语音转文本和语音翻译

快速转录

批量听录

模型自定义

每个资源的文本转语音配额和限制

实时文本转语音

有声内容创作工具

详细说明、配额调整和最佳做法

在自动缩放期间缓解限制的常规最佳做法

工作负载模式最佳做法的示例

语音转文本：提高实时语音转文本并发请求限制

准备所需信息

创建配额增加请求

快速听录：增加每分钟的最大请求数限制

准备所需信息

创建配额增加请求

文本转语音：提高实时 TPS 限制

估算需求

准备所需信息

创建配额增加请求

创建和提交配额增加请求

其他资源