服务配额和限制

此内容适用于:v3.1 (GA)checkmark以前的版本:v3.0 (GA)blue-checkmark

此内容适用于:选中标记 v2.1

本文包含有关所有定价层的 Azure AI 文档智能服务配额和限制的快速参考和详细说明。 它也包含避免请求限制的一些最佳做法。

模型使用

支持的文档类型 读取 版式 预生成的模型 自定义模式 加载项功能
PDF ✔️ ✔️ ✔️ ✔️ ✔️
映像:JPEG/JPGPNGBMPTIFFHEIF ✔️ ✔️ ✔️ ✔️ ✔️
Microsoft Office:DOCXPPTXXLS ✔️ ✔️ ✖️ ✖️ ✖️

✔️ = 支持 ✖️ = 不支持

对于 Document Intelligence v4.0 2024-11-30 (GA),支持页面和行功能,但具有以下限制:

  • 不支持角度、宽度/高度和单位。
  • 对于检测到的每个对象,不支持边界多边形或边界区域。
  • 不支持 lines 对象。
支持的文档类型 读取 版式 预生成的模型 自定义模式
PDF ✔️ ✔️ ✔️ ✔️
映像:JPEG/JPGPNGBMPTIFFHEIF ✔️ ✔️ ✔️ ✔️
Microsoft Office:DOCXPPTXXLS ✔️ ✖️ ✖️ ✖️

✔️ = 支持 ✖️ = 不支持

计费

文档智能计费是根据模型类型和分析的页数按月计算的。 可以在 Azure 门户的指标仪表板上找到使用情况指标。 仪表板显示 Azure AI 文档智能处理的页面数。 下面是一些详细信息:

  • 提交文档进行分析时,除非在请求中使用 pages 参数指定页面范围,否则该服务会分析所有页面。 当该服务通过读取、OCR 或布局模型分析 Microsoft Excel 和 PowerPoint 文档时,它会将每个 Excel 工作表和 PowerPoint 幻灯片计为一页。

  • 当该服务分析 PDF 和 TIFF 文件时,它会将 PDF 文件中的每一页或 TIFF 文件中的每个图像计为一页,没有最大字符数限制。

  • 当该服务分析读取和布局模型支持的 Microsoft Word 和 HTML 文件时,它会以每个 3,000 个字符的块对页面进行计数。 例如,如果文档包含 7,000 个字符,则有两页各包含 3,000 个字符,一页包含 1,000 个字符,总计为三页。

  • 读取和布局模型不支持对 Microsoft Word、Excel、PowerPoint 和 HTML 文件中的嵌入或链接图像进行分析。 因此,服务不会将它们算作添加的图像。

  • 使用文档智能训练自定义模型始终是免费的。 仅当服务使用模型分析文档时,才会产生费用。

  • 容器定价与云服务定价相同。

  • 文档智能提供免费层 (F0),你可以在其中测试所有文档智能功能。 免费层限制仅分析对请求中前两页的响应。

  • 对于大型工作负载,文档智能提供基于承诺的定价模型。

  • 为用于自定义训练的数据集生成标签需要使用布局模型。 如果用于自定义训练的数据集没有可用的标签文件,该服务会为你生成它们,并向你收取布局模型使用费。

Quota 免费 (F0)1 标准 (S0)
分析每秒事务数限制 1 15(默认值)
可调 2
每秒 Get 操作数限制 1 50(默认值)
可调 2
每秒模型管理操作数限制 1 5(默认值)
可调 2
每秒 List 数限制 1 10(默认值)
可调 2
最大文档大小 4 MB 500 MB
可调
最大页数(分析) 2 2000
可调
标签文件的最大大小 10 MB 10 MB
可调
OCR json 响应的最大大小 500 MB 500 MB
可调
模板模型的最大数量 500 5000
可调
神经网络模型的最大数量 100 500
可调

自定义模型用法

Quota 免费 (F0) 1 标准 (S0)
组合模型限制 5 500(默认值)
可调
训练数据集大小 * 神经网络模型和生成式模型 1 GB 3 1 GB(默认值)
可调
训练数据集大小 * 模板 50 MB 4 50 MB(默认值)
可调
最大页数(训练)* 模板 500 500(默认值)
可调
最大页数(训练) * 神经网络模型和生成式模型 50,000 50,000(默认值)
可调
自定义神经模型训练 每月 10 小时 5 无限制(按小时付费),每月首先赠送 10 小时的免费使用时间
可调 3
最大页数(训练)* 分类器 25,000 25,000 (默认值)
可调
最大文档类型(类)数量 * 分类器 1000 1000 (默认值)
可调
训练数据集大小 * 分类器 1GB 2GB(默认值)
可调
每个类的最小样本数 * 分类器 5 5(默认值)
可调

自定义模型用法

Quota 免费 (F0) 1 标准 (S0)
组合模型限制 5 200(默认值)
可调
训练数据集大小 * 神经网络 1 GB 3 1 GB(默认值)
可调
训练数据集大小 * 模板 50 MB 4 50 MB(默认值)
可调
最大页数(训练)* 模板 500 500(默认值)
可调
最大页数(训练)* 神经网络 50,000 50,000(默认值)
可调
自定义神经模型训练 每月 10 次 每月 20 次
可调 3
最大页数(训练)* 分类器 10,000 10,000(默认值)
可调
最大文档类型(类)数量 * 分类器 500 500(默认值)
可调
训练数据集大小 * 分类器 1GB 1GB(默认值)
可调
每个类的最小样本数 * 分类器 5 5(默认值)
可调

自定义模型用法

Quota 免费 (F0) 1 标准 (S0)
组合模型限制 5 200(默认值)
可调
训练数据集大小 * 神经网络 1 GB 3 1 GB(默认值)
可调
训练数据集大小 * 模板 50 MB 4 50 MB(默认值)
可调
最大页数(训练)* 模板 500 500(默认值)
可调
最大页数(训练)* 神经网络 50,000 50,000(默认值)
可调
自定义神经模型训练 每月 10 次 每月 20 次
可调 3
最大页数(训练)* 分类器 10,000 10,000(默认值)
可调
最大文档类型(类)数量 * 分类器 500 500(默认值)
可调
训练数据集大小 * 分类器 1GB 1GB(默认值)
可调
每个类的最小样本数 * 分类器 5 5(默认值)
可调

自定义模型限制

Quota 免费 (F0) 1 标准 (S0)
组合模型限制 5 200(默认值)
可调
训练数据集大小 50 MB 50 MB(默认值)
可调
最大页数(训练) 500 500(默认值)
可调

1 有关免费 (F0) 定价层,另请参阅定价页上的每月限额。
2 请参阅最佳做法调整说明
3 神经网络模型训练计数会在每个日历月重置。 提交支持请求以提高每月训练上限。 从 v4.0 API 开始,在一个日历月中,将在训练层对训练请求超过 20 个的部分计费。 有关详细信息,请参阅定价

4 此限制适用于在进行任何与标记相关的更新之前在训练数据集文件夹中找到的所有文档。

详细说明、配额调整和最佳做法

可以通过提交支持工单来请求增加,以提高默认限制。 请求增加配额(如果适用)之前,请确保其必要性。 文档智能服务使用自动缩放技术将所需的计算资源 on-demand,同时通过不保留过多的硬件容量来降低客户成本和取消预配未使用的资源。

如果应用程序返回响应代码 429(请求过多),则超过一个或多个每秒事务数 (TPS) 限制的阈值:

  • 分析每秒事务数限制 用于提交分析请求的 TPS (POST)
  • 每秒 Get 操作数限制:用于轮询分析操作结果的 TPS (GET)
  • 每秒模型管理操作数限制 与模型管理相关的操作,例如生成/训练和复制。
  • 每秒列举操作的次数限制 与列出模型和操作相关的操作。

在自动缩放期间缓解限制的常规最佳做法

为了最大程度地减少与限制(响应代码 429)相关的问题,我们建议使用以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。 逐步增加工作负载
    示例。 应用程序正在使用文档智能,当前工作负载是 10 TPS(每秒事务数)。 下一秒,负载增加到 40 TPS。 结果是,由于你提交的分析操作超过了 15 TPS 的限制,部分请求会收到 429 响应代码。 可以减少处理以保持不超过 15 TPS,或请求提高 TPS 限制以支持更高的处理量。

下一部分介绍调整配额的特定案例。 跳转到文档智能:增加并发请求限制

每秒增加事务请求限制

默认情况下,文档智能资源的事务数量限制为每秒 15 个事务。 对于标准定价层,可以提交 TPS 增加请求,但是否可以获得批准,以及 TPS 级别调整将取决于每日使用模式和所遵循的最佳做法。 提交请求之前,请确保熟悉此部分中的材料,并了解这些最佳做法

增加并发请求限制不会直接影响成本。 文档智能服务使用“只需为使用的资源付费”模型。 此限制定义了服务在开始限制请求之前可缩放的程度。

在 Azure 门户中“资源概述”边栏选项卡上的“监视”选项卡下,可以找到不同请求限制类别的现有值。

创建并提交有关增加 TPS 的支持请求

通过提交支持请求,开始增加资源的每秒事务处理数量 (TPS) 限制:

  • 登录到 Azure 门户
  • 选择要增加 TPS 限制的文档智能资源
  • 选择“新建支持请求”(“支持 + 故障排除”组)。 会出现一个新窗口,其中包含有关 Azure 订阅和 Azure 资源的自动填充信息
  • 输入“摘要”(例如“增大文档智能 TPS 限制”)
  • 对于“问题类型”字段,选择“配额或使用情况验证”。
  • 选择“下一步: 解决方案”
  • 进一步创建请求
  • 在“详细信息”选项卡下的“说明”字段中输入以下信息:
    • 请注意,请求与文档智能配额有关。
    • 提供想要进行扩展以达到的 TPS 预期值。 虽然增加 TPS 是免费的,但应只请求适合工作负载的 TPS。
    • Azure 资源信息
    • 输入必填信息之后,在“查看 + 创建”选项卡中选择“创建”按钮
    • 注意 Azure 门户通知中的支持请求编号。 等待支持人员很快与你联系来进一步进行处理。

工作负载模式最佳做法的示例

本示例介绍了我们建议采用的方法,以减少由于正在进行自动缩放而导致的可能的请求限制。 它不是精确的方案,而只是我们请求用户遵循并根据需要调整的模板。

假设文档智能资源设置有默认限制。 启动工作负载以提交分析请求。 如果你发现在检查完成情况时经常看到响应代码为 429 的限制,请首先对 GET 分析响应请求实施指数退避。 通过在连续错误响应的重试之间使用逐渐延长的等待时间,例如请求之间的 2-5-13-34 延迟模式。 通常,对于相应的 POST 请求,建议调用 GET 分析响应的频率不超过每 2 秒一次。 analyze 响应还包含一个重试后标头,指示应等待多长时间(以秒为单位)后再检查请求是否完成。

如果发现提交文档的 POST 请求次数受到限制,请考虑在请求之间添加延迟。 如果工作负荷需要更高的并发处理能力,则需要创建支持请求,以提高每秒事务处理数量的服务限制。

通常,我们建议在投入生产之前测试工作负载和工作负载模式。

后续步骤