다음을 통해 공유

语音服务配额和限制

本文包含关于 Azure AI 服务中语音服务的配额和限制的快速参考和详细说明。 此信息适用于服务的所有定价层。 它也包含避免请求限制的一些最佳做法。

有关免费 (F0) 定价层,还请参见定价页中的每月津贴。

配额与限制参考

以下部分提供了适用于语音服务的配额和限制的快速指南。

有关标准 (S0) 语音资源的可调整配额的信息,请参阅其他说明最佳做法调整说明。 免费 (F0) 语音资源的配额和限制不可调整。

重要

如果将语音 AI 服务资源从“免费(F0)”定价层切换到“标准(S0)”定价层,则相应配额的更改可能需要长达数小时的时间。

每个资源的语音转文本配额和限制

本部分介绍了每个语音资源的语音转文本配额和限制。 除非另有说明,否则限制不可调整。

实时语音转文本和语音翻译

你可以将实时语音转文本与语音 SDK适用于短音频的语音转文本 REST API 一起使用。

重要

这些限制适用于并发实时语音转文本请求和语音翻译请求的总和。 例如,如果有 60 个并发语音转文本请求以及 40 个并发语音翻译请求,则将达到 100 个并发请求的限制。

配额 免费 (F0) 标准 (S0)
并发请求限制 - 基础模型终结点 1

此限制不可调整。
100(默认值)

对于标准 (S0) 资源,费率是可调整的。 请参阅其他说明最佳做法调整说明
并发请求限制 - 自定义终结点 1

此限制不可调整。
100(默认值)

对于标准 (S0) 资源,费率是可调整的。 请参阅其他说明最佳做法调整说明

快速转录

配额 免费 (F0) 标准 (S0)
最大音频输入文件大小 不适用 < 300 MB
最大音频长度 不适用 < 每个文件 120 分钟
每分钟最大请求数 不适用 600

批量听录

配额 免费 (F0) 标准 (S0)
语音转文本 REST API 的限制 不可用于 F0 每 10 秒 100 个请求(每分钟 600 个请求)
最大音频输入文件大小 不适用 1GB
每个容器的最大 Blob 数 不适用 一万
每个听录请求的最大文件数(当使用多个内容 URL 作为输入时)。 不适用 1000
启用了分割聚类的听录内容最大音频长度。 不适用 每个文件 240 分钟

模型自定义

创建自定义语音模型时,此表中的限制适用于每个语音资源。

配额 免费 (F0) 标准 (S0)
REST API 限制 每 10 秒 100 个请求(每分钟 600 个请求) 每 10 秒 100 个请求(每分钟 600 个请求)
每个语音资源的自定义模型部署数量上限 1 50
语音数据集的最大数目 2 500
数据导入的最大声学数据集文件大小 2 GB 2 GB
数据导入的最大语言数据集文件大小 200 MB 1.5 GB
数据导入的最大发音数据集文件大小 1 KB 1 MB
使用 text API 请求中的 参数时的最大文本大小 200 KB 500 KB

每个资源的文本转语音配额和限制

本部分介绍了每个语音资源的文本转语音配额和限制。

实时文本转语音

可以使用语音 SDK文本转语音 REST API 来进行实时文本转语音。 除非另有说明,否则限制不可调整。

配额 免费 (F0) 标准 (S0)
标准语音的每个时间段的最大事务数。 每 60 秒 20 笔交易

此限制不可调整。
每秒 200 个事务 (TPS)(默认值)

对于标准 (S0) 资源,此限制可上调至 1000 TPS。 请参阅其他说明最佳做法调整说明
每个请求已生成的最大音频长度 10 分钟 10 分钟
SSML 中不同 <voice><audio> 标记的最大总数 50 50
WebSocket 每轮最大 SSML 消息大小 64 KB 64 KB

有声内容创作工具

配额 免费 (F0) 标准 (S0)
文件大小(SSML 的纯文本)1 每个文件 3,000 个字符 每个文件 20,000 个字符
文件大小(词典文件)2 每个文件 30KB 每个文件 100KB
SSML 中的可计费字符 每个文件 15,000 个字符 每个文件 100,000 个字符
导出到音频库 1 个并发任务 不适用

1 限制仅适用于 SSML 的纯文本,并且不包括标记。

2 词典文件的字符不收费。 只有 SSML 的词典元素才会计为可计费字符。 要了解详细信息,请参阅可计费字符

详细说明、配额调整和最佳做法

某些语音服务配额可调整。 本部分提供了其他说明、最佳做法和调整说明。

对于标准 (S0) 资源,以下配额可调整。 免费 (F0) 请求限制不可调整。

在请求增加配额之前(如果适用),请检查当前的 TPS(每秒事务数),并确保需要增加配额。

备注

批量听录是一个异步过程,作业在队列中逐个处理。 因此,增加配额不会提高听录性能。 有关性能改进,请参阅 Batch 听录最佳做法

语音服务使用自动缩放技术在点播模式下引入所需的计算资源。 同时,语音服务会尝试通过不保留过多的硬件容量来降低成本。

我们来看一个示例。 假设你的应用程序收到响应代码 429,则表示请求过多。 即使工作负载在配额和限制参考定义的限制范围内,应用程序也会接收此响应。 最可能的解释是,语音服务正在按你的需求进行扩展,并且尚未达到所需规模。 因此,该服务不会立即提供足够的资源来处理请求。 在这种情况下,增加配额将无济于事。 在大多数情况下,语音服务将会很快进行纵向扩展,并将解决导致响应代码 429 的问题。

在自动缩放期间缓解限制的常规最佳做法

若要尽量减少与限制相关的问题,可使用以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。 逐步增大工作负载。 例如,假设应用程序使用文本转语音,且当前工作负载为 5 TPS。 接下来,你将负载增加到 20 TPS(即原来的四倍)。 语音服务立即开始扩展以满足新负载,但无法在一秒钟内根据需要进行缩放。 某些请求收到响应代码 429(请求太多)。
  • 测试不同负载增加模式。 有关详细信息,请参阅工作负载模式示例
  • 在不同的区域中创建更多语音服务资源,并在区域间分配工作负载。 (在相同的区域中创建多个语音服务资源不会影响性能,因为所有资源都将由同一后端群集提供服务)。

下一部分介绍调整配额的特定案例。

语音转文本:提高实时语音转文本并发请求限制

默认情况下,对于基础模型中的每个资源和自定义模型中的每个自定义终结点,并发实时语音转文本和语音翻译请求的总和均限制为 100 个。 对于标准定价层,可以增加此数量。 在提交请求之前,请确保熟悉本文前面讨论的内容,比如减轻限速的最佳做法。

备注

基础模型和自定义模型的并发请求限制需要单独调整。 语音服务资源可以与托管许多自定义模型部署的多个自定义终结点相关联。 如果需要,每个自定义终结点的限制调整必须单独进行请求。

提高并发请求的限制不会直接影响成本。 语音服务使用要求你只为使用内容付费的付款模型。 此限制定义了服务在开始限制请求之前可缩放的程度。

不能在 Azure 门户、命令行工具或 API 请求中查看并发请求限制参数的现有值。 若要验证现有值,请创建 Azure 支持请求。

准备好所需信息

  • 对于基础模型:
    • 语音资源 ID
    • 区域
  • 对于自定义模型:
    • 区域
    • 自定义终结点 ID

如何获取基础模型的信息:

  1. 转到 Azure 门户
  2. 选择要增加并发请求限制的语音服务资源。
  3. 在“资源管理”组中,选择“属性”。
  4. 复制并保存以下字段的值:
    • 资源 ID
    • 位置(终结点区域)

如何获取自定义模型的信息:

  1. 转到 Speech Studio 门户。
  2. 如有必要,请登录,并转到“自定义语音”
  3. 选择项目,然后转到“部署”。
  4. 选择所需终结点。
  5. 复制并保存以下字段的值:
    • 服务区域 (你的终结点区域)
    • 终结点 ID

文本转语音:提高实时 TPS 限制

对于标准定价层,可以增加此数量。 在提交请求之前,请确保熟悉本文前面讨论的内容,比如减轻限速的最佳做法。

估算需求

  • 使用量低于 10,000 英镑/月:通常,32 TPS 足够,假设峰值使用量在平均值的 10 倍以内。
  • 默认限制:200 TPS 默认可用,超过大多数用例。

示例:呼叫中心方案
如果要建立一个具有 1,000 个并发通话的呼叫中心:

  • 假设代理在一半时间发言。
  • 平均 TTS 响应长度为 5 秒。

必需的 TPS:1000 个调用/(2×5 秒) = 100 TPS

TPS 增加请求所需的信息
请提供以下详细信息:

  • 峰值 TPS
  • 平均 TPS
  • 平均 TTS 请求长度(以字符为单位)

使用此数据,可以使用以下公式估算每月 TTS 使用情况:
每月使用率=平均 TPS×Request Length×3600×24×30
将结果乘以每百万字符 15 元的单价来估算每月成本。

备注

如果估计的使用量显著超过预算,则可能会过度估计你的需求。

成本注意事项
增加并发请求限制 不会直接影响 成本。 仅为所用的部分付费。 限制只是定义服务在开始限流之前可以扩展到的程度。

不能在 Azure 门户、命令行工具或 API 请求中查看并发请求限制参数的现有值。 若要验证现有值,请创建 Azure 支持请求。

准备所需信息

若要创建增加请求,需要提供信息。

  • 对于标准声音:
    • 语音资源 ID
    • 区域

如何获取标准语音的信息:

  1. 转到 Azure 门户
  2. 选择要增加并发请求限制的语音服务资源。
  3. 在“资源管理”组中,选择“属性”。
  4. 复制并保存以下字段的值:
    • 资源 ID
    • 位置(终结点区域)