共用方式為

文档处理模型

此内容适用于:复选标记v4.0 (GA) | 以前的版本:蓝色复选标记v3.1 (GA)蓝色复选标记v3.0 (GA)蓝色复选标记v2.1 (GA)

此内容适用于:选中标记v3.1 (GA) | 先前版本:蓝色复选标记v3.0蓝色复选标记v2.1

此内容适用于:选中标记v3.0 (GA) | 最新版本:紫色复原标记v3.1 | 先前版本:蓝色复选标记v2.1

此内容适用于:选中标记 v2.1

Azure AI 文档智能支持可用于向应用和流添加智能文档处理的各种模型。 可以使用预构建的特定于域的模型或训练根据特定业务需求和用例定制的自定义模型。 可以将文档智能与 REST API 或 Python、C#、Java 和 JavaScript 客户端库配合使用。

注意

涉及财务数据、受保护健康信息数据、个人身份数据或高度敏感数据的文档处理项目需要认真考虑。 确保遵守所有国家/地区和行业特定的要求

模型概述

下表显示了每个稳定 API 的正式发布 (GA) 模型。

模型类型 型号 2024-11-30 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (正式版)
文档分析模型 读取 ✔️ ✔️ ✔️ 不可用
文档分析模型 布局 ✔️ ✔️ ✔️ ✔️
文档分析模型 常规文档** 支持布局模型 ✔️ ✔️ 不可用
预生成的模型 合约 ✔️ ✔️ 不可用 不可用
预生成的模型 医疗保险卡 ✔️ ✔️ ✔️ 不可用
预生成的模型 ID 文档 ✔️ ✔️ ✔️ ✔️
预生成的模型 发票 ✔️ ✔️ ✔️ ✔️
预生成的模型 回执 ✔️ ✔️ ✔️ ✔️
预生成的模型 美国统一税* ✔️ 不可用 不可用 不可用
预生成的模型 美国 1040 税* ✔️ ✔️ 不可用 不可用
预生成的模型 美国 1095 税* ✔️ 不可用 不可用 不可用
预生成的模型 美国 1098 税* ✔️ 不可用 不可用 不可用
预生成的模型 美国 1099 税* ✔️ 不可用 不可用 不可用
预生成的模型 美国 W2 税 ✔️ ✔️ ✔️ 不可用
预生成的模型 美国 W4 税 ✔️ 不可用 不可用 不可用
预生成的模型 美国抵押贷款 1003 URLA ✔️ 不可用 不可用 不可用
预生成的模型 美国抵押贷款 1004 URAR ✔️ 不可用 不可用 不可用
预生成的模型 美国抵押贷款 1005 ✔️ 不可用 不可用 不可用
预生成的模型 美国抵押贷款 1008 摘要 ✔️ 不可用 不可用 不可用
预生成的模型 美国抵押贷款关闭披露 ✔️ 不可用 不可用 不可用
预生成的模型 结婚证 ✔️ 不可用 不可用 不可用
预生成的模型 信用卡 ✔️ 不可用 不可用 不可用
预生成的模型 名片 弃用的 ✔️ ✔️ ✔️
自定义分类模型 自定义分类器 ✔️ ✔️ 不可用 不可用
自定义提取模型 自定义模板 ✔️ ✔️ ✔️ ✔️
自定义提取模型 自定义组合 ✔️ ✔️ ✔️ ✔️
所有模型 附加功能 ✔️ ✔️ 不可用 不可用

* 包含子模型。 有关支持的变体和子类型,请参阅特定于模型的信息。
** 常规文档模型的所有功能在布局模型中均可用。 不再支持常规模型。

延迟

延迟是 API 服务器处理传入请求并将传出响应传递给客户端所需的时间。 分析文档的时间取决于文档的大小(例如,页数)和每一页上的关联内容。 文档智能是一种多租户异步服务,其中类似文档的延迟是可比的,但并非总是完全相同。 延迟和性能偶尔的可变性固有于任何基于微服务的无状态服务,可大规模处理图像和大型文档。 虽然我们在不断扩展硬件和容量以及扩展功能,但你可能仍会在运行时遇到延迟问题。

加载项功能

以下加载项功能可用于文档智能。 对于除名片模型之外的所有模型,文档智能现在支持附加功能,以便进行更复杂的分析。 可以启用和禁用这些可选功能,具体取决于文档提取的方案。 以下附加功能适用于 2023-07-31(GA)及更高版本的 API 版本:

加载项功能 加载项/免费 2024-11-30 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (正式版)
字体属性提取 加载项 ✔️ ✔️ 不可用 不可用
公式提取 加载项 ✔️ ✔️ 不可用 不可用
高分辨率提取 加载项 ✔️ ✔️ 不可用 不可用
条形码提取 免费 ✔️ ✔️ 不可用 不可用
语言检测 免费 ✔️ ✔️ 不可用 不可用
键/值对 免费 ✔️ 不可用 不可用 不可用
查询字段 加载项* ✔️ 不可用 不可用 不可用
可搜索 PDF 加载项* ✔️ 不可用 不可用 不可用

模型分析功能

模型 ID 内容提取 查询字段 段落 段落角色 选择标记 键/值对 语言 条形码 文档分析 公式* 样式字体* 高分辨率* 可搜索 PDF
prebuilt-read O O O O O O
prebuilt-layout O O O O O O
prebuilt-contract O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
prebuilt-invoice O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
prebuilt-bankStatement O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1004 O O O O O
prebuilt-mortgage.us.1005 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.w4 O O O O O
prebuilt-tax.us.1040 (各种) O O O O O
prebuilt-tax.us.1095A O O O O O
prebuilt-tax.us.1095C O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099 (各种) O O O O O
prebuilt-tax.us.1099SSA O O O O O
{ customModelName } O O O O O

✓ - 已启用
O - 可选
* - 高级功能会产生额外费用

查询字段的价格与其他附加功能不同。 有关详细信息,请参阅定价

边界框和多边形坐标

边界框(polygon 在 v3.0 及更高版本中)是一个抽象矩形,它环绕文档中的文本元素。 边界框用作对象检测的参考点:

  • 边界框使用包含四个数值对的数组中的 x 和 y 坐标平面指定位置。 每对按以下顺序代表框的一个角:左上、右上、右下、左下。
  • 图像坐标以像素来表示。 对于 PDF,坐标以英寸来表示。

语言支持

基于深度学习的文档智能中的通用模型支持多种语言。 模型可以从图像和文档中提取多语言文本,包括带有混合语言的文本行。 语言支持因文档智能服务的功能而异。 有关完整列表,请参阅以下文章:

区域可用性

文档智能已在 Azure 全球基础结构区域中的许多区域中正式发布。

模型详细信息

本部分介绍每个模型可以期待的输出。 可以使用附加功能扩展大多数模型的输出。

读取 OCR

读取 API 使用光学字符识别(OCR)来分析和提取行和单词、其位置、检测到的语言和手写样式(如果检测到)。

此示例文档是使用 Document Intelligence Studio 处理的。

显示使用文档智能工作室读取处理的示例文档的屏幕截图。

布局分析

布局分析模型分析和提取文本、表、选择标记和其他结构元素,如标题、节标题、页眉和页脚。

此示例文档是使用 Document Intelligence Studio 处理的。

显示使用文档智能工作室处理的示例报纸页面的屏幕截图。

医疗保险卡

健康保险卡模型将强大的 OCR 功能与深度学习模型相结合,从美国医疗保险卡分析和提取关键信息。

此示例美国医疗保险卡是使用 Document Intelligence Studio 处理的。

显示 Document Intelligence Studio 中的美国医疗保险卡分析示例的屏幕截图。

美国税务文档

美国税务文件模型可从一组选定的税务文件中分析和提取关键字段和细列项目。 该 API 支持分析各种格式和质量的英语美国税务文档,包括手机捕获的图像、扫描的文档和数字 PDF。 当前支持以下模型:

型号 说明 模型 ID
美国税 W-2 提取应纳税所得详细信息。 prebuilt-tax.us.w2
美国税务 W-4 提取应纳税所得详细信息。 prebuilt-tax.us.w4
美国税 1040 提取抵押贷款利息详细信息。 prebuilt-tax.us.1040 (变体)
美国税 1095 提取医疗保险详细信息。 prebuilt-tax.us.1095 (变体)
美国税 1098 提取抵押贷款利息详细信息。 prebuilt-tax.us.1098 (变体)
美国税 1099 提取从雇主以外的来源获得的收入。 prebuilt-tax.us.1099 (变体)

此示例 W-2 文档是使用 文档智能工作室处理的。

显示示例 W-2 文档的屏幕截图。

美国抵押贷款文档

美国抵押贷款文档模型分析和提取包括借款人、贷款和财产信息在内的关键字段,这些字段来自一组选定的抵押贷款文档。 该 API 支持分析各种格式和质量的英语美国抵押贷款文档,包括手机捕获的图像、扫描的文档和数字 PDF。 目前支持以下模型。

型号 说明 模型 ID
1003 End-User 许可协议 提取贷款、借款人、财产详细信息。 prebuilt-mortgage.us.1003
1004 统一住宅评估报告 (URAR) 提取贷款、借款人、财产详细信息。 prebuilt-mortgage.us.1004
1005 就业验证 提取贷款、借款人、财产详细信息。 prebuilt-mortgage.us.1005
1008 摘要文档 提取借款人、卖方、财产、抵押贷款和承销详细信息。 prebuilt-mortgage.us.1008
关闭披露 提取核定贷款、交易成本和贷款详细信息。 prebuilt-mortgage.us.closingDisclosure

此示例“关闭披露”文档是使用 Document Intelligence Studio 处理的。

显示示例关闭披露的屏幕截图。

合约

合同模型从合同协议(包括当事人、司法管辖区、合同 ID 和标题)中分析和提取关键字段和行项。 该模型当前支持英语合同文档。

此示例协定是使用 Document Intelligence Studio 处理的。

显示使用 Document Intelligence Studio 提取合同模型的屏幕截图。

发票

发票模型自动处理发票,以提取客户姓名、帐单地址、截止日期、到期金额、行项和其他关键数据。

此示例发票是使用 Document Intelligence Studio 处理的。

显示示例发票的屏幕截图。

回执

使用收据模型扫描商家姓名、日期、行项、数量以及打印和手写收据中的销售收据。 版本 v3.0 还支持单页酒店收据处理。

此示例收据是使用 Document Intelligence Studio 处理的。

显示示例回执的屏幕截图。

标识文档

使用标识文档(ID)模型处理美国驾驶执照(所有50个州和哥伦比亚区)以及国际护照(不包括签证和其他旅行证件)的传记页,以提取关键字段。

此示例美国驱动程序许可证是使用 Document Intelligence Studio 处理的。

显示示例标识卡的屏幕截图。

结婚证

使用婚姻证模型处理美国婚姻证书,以提取关键字段,包括个人、日期和位置。

此示例美国婚姻证书是使用 文档智能工作室处理的。

显示示例婚姻证书的屏幕截图。

信用卡

使用信用卡模型处理信用卡和借记卡以提取关键字段。

此示例信用卡是使用 Document Intelligence Studio 处理的。

显示示例信用卡的屏幕截图。

自定义模式

自定义模型被广泛分类为两种类型。 支持“文档类型”分类的自定义分类模型,以及可以从特定文档类型中提取定义的架构的自定义提取模型。

显示自定义模型的类型和关联的模型生成模式的关系图。

自定义文档模型会分析和提取特定于企业的表单和文档中的数据。 它们可识别不同内容中的表单字段,并提取键/值对和表数据。 只需一个窗体类型的示例即可开始使用。

版本 v3.0 及更高版本的自定义模型支持自定义模板(表单)中的签名检测,以及模板模型和神经网络模型中的跨页表。 签名检测检测是否存在某个签名,而不是文档签名者的标识。 如果模型在执行签名检测时返回“未签名”,则表示模型未在定义的字段中找到签名。

此示例自定义模板是使用 Document Intelligence Studio 处理的。

显示文档智能分析自定义窗体的屏幕截图。

自定义提取

自定义提取模型可以是自定义模板。 若要创建自定义提取模型,请标记包含要提取的值的文档数据集,并基于标记的数据集训练模型。 只需五个相同窗体或文档类型的示例即可开始使用。

此示例自定义提取是使用 Document Intelligence Studio 处理的。

显示 Document Intelligence Studio 中的自定义提取模型分析的屏幕截图。

自定义分类器

使用自定义分类模型,可以在调用提取模型之前标识文档类型。 分类模型从 2023-07-31 (GA) API 开始提供。 训练自定义分类模型需要至少两个不同的类,且每个类至少需要五个样本。

组合模型

组合模型的创建方式是采用自定义模型的集合并将其分配到基于你的表单类型构建的单个模型。 可以将多个自定义模型分配给使用单个模型 ID 调用的组合模型。 最多可将 200 个经过训练的自定义模型分配到单个组合模型。

此示例组合模型位于 Document Intelligence Studio 中。

显示 Document Intelligence Studio Compose 自定义模型窗格的屏幕截图。

输入要求

支持以下文件格式。

型号 PDF 图片:
JPEG/JPG、PNG、BMP、TIFF、HEIF
Office:
Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)、HTML
读取
版式
常规文档
预生成
自定义提取
自定义分类
  • 照片和扫描:为获得最佳结果,请为每个文档提供一张清晰的照片或高质量的扫描。
  • PDF 和 TIFF:对于 PDF 和 TIFF,最多可以处理 2,000 页。 (使用免费层订阅时,只处理前两个页面。
  • 文件大小:用于分析文档的文件大小是付费层 (S0) 层的 500 MB,免费层为 4 MB(F0) 层。
  • 图像尺寸:尺寸必须介于 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之间。
  • 密码锁:如果 PDF 是密码锁定的,则必须在提交之前删除该锁。
  • 文本高度:要提取的文本的最小高度是 1024 x 768 像素图像的 12 像素。 此尺寸对应于 8 点大约文本,即每英寸 150 点。
  • 自定义模型训练:自定义模板模型的最大训练页数为 500,自定义神经模型为 50,000。
  • 自定义提取模型训练:对于模板模型,训练数据的总大小为 50 MB,神经网络模型为 1 GB。
  • 自定义分类模型训练:训练数据的总大小为 1 GB,最大为 10,000 页。 对于 2024-11-30(GA),训练数据的总大小为 2 GB,最大为 10,000 页。
  • Office 文件类型(DOCX、XLSX、PPTX):最大字符串长度限制为 800 万个字符。

注意

示例标记工具不支持 BMP 文件格式。 此限制派生自工具而不是文档智能服务。

版本迁移

按照 文档智能 v3.1 迁移指南中的步骤了解如何在应用程序中使用文档智能 v3.0

型号 说明
文档分析
布局 从文档中提取文本和布局信息。
预生成
发票 从英语和西班牙语发票中提取关键信息。
回执 从英语收据中提取关键信息。
ID 文档 从美国驾照和国际护照中提取关键信息。
名片 从英语名片中提取关键信息。
自定义
自定义 从特定于企业的表单和文档中提取数据。 自定义模型针对不同的数据和用例进行训练。
组合 组合一批自定义模型,并将其分配给基于你的表单类型构建的单个模型。

版式

布局 API 可分析和提取文档中的文本、表、标题、选择标记和结构信息。

此示例文档是使用 示例标记工具处理的。

显示使用示例标记工具进行布局分析的屏幕截图。

发票

发票模型可以分析和提取销售发票中的关键信息。 该 API 可分析各种格式的发票并提取客户姓名、帐单邮寄地址、截止日期和未付金额等关键信息。

此示例发票是使用 示例标记工具处理的。

显示使用示例标记工具的示例发票分析的屏幕截图。

回执

收据模型可以分析和提取印刷体和手写体销售收据中的关键信息。

此示例收据是使用 示例标记工具处理的。

显示示例回执的屏幕截图。

身份文档

ID 文档模型分析和提取以下文档中的关键信息:

  • 美国驾驶执照(所有50个州和哥伦比亚区)
  • 国际护照的个人资料页(不包括签证和其他旅行证件)。 API 分析和提取标识文档。

此示例美国驾照是使用 示例标记工具处理的。

显示示例标识卡的屏幕截图。

名片

名片模型可分析和提取名片图像中的关键信息。

此示例名片是使用 示例标记工具处理的。

显示示例名片的屏幕截图。

自定义

自定义模型会分析和提取特定于企业的表单和文档中的数据。 API 是一个机器学习程序,用于识别不同内容中的表单字段并提取键/值对和表数据。 只需使用同一窗体类型的五个示例即可开始使用。 可以使用或不使用标记数据集来训练自定义模型。

此示例自定义模型是使用 示例标记工具处理的。

显示分析自定义窗体窗格的文档智能工具的屏幕截图。

组合自定义模型

组合模型的创建方式是采用自定义模型的集合并将其分配到基于你的表单类型构建的单个模型。 可以将多个自定义模型分配给使用单个模型 ID 调用的组合模型。 最多可将 100 个经过训练的自定义模型分配到单个组合模型。

此组合模型窗格是使用 示例标记工具处理的。

显示 Document Intelligence Studio Compose 自定义模型窗格的屏幕截图。

模型数据提取

型号 文本提取 语言检测 选择标记 段落 段落角色 键/值对 Fields
布局
发票
回执
ID 文档
名片
自定义表单

输入要求

支持以下文件格式。

型号 PDF 图片:
JPEG/JPG、PNG、BMP、TIFF、HEIF
Office:
Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)、HTML
读取
版式
常规文档
预生成
自定义提取
自定义分类
  • 照片和扫描:为获得最佳结果,请为每个文档提供一张清晰的照片或高质量的扫描。
  • PDF 和 TIFF:对于 PDF 和 TIFF,最多可以处理 2,000 页。 (使用免费层订阅时,只处理前两个页面。
  • 文件大小:用于分析文档的文件大小是付费层 (S0) 层的 500 MB,免费层为 4 MB(F0) 层。
  • 图像尺寸:尺寸必须介于 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之间。
  • 密码锁:如果 PDF 是密码锁定的,则必须在提交之前删除该锁。
  • 文本高度:要提取的文本的最小高度是 1024 x 768 像素图像的 12 像素。 此尺寸对应于 8 点大约文本,即每英寸 150 点。
  • 自定义模型训练:自定义模板模型的最大训练页数为 500,自定义神经模型为 50,000。
  • 自定义提取模型训练:对于模板模型,训练数据的总大小为 50 MB,神经网络模型为 1 GB。
  • 自定义分类模型训练:训练数据的总大小为 1 GB,最大为 10,000 页。 对于 2024-11-30(GA),训练数据的总大小为 2 GB,最大为 10,000 页。
  • Office 文件类型(DOCX、XLSX、PPTX):最大字符串长度限制为 800 万个字符。

注意

示例标记工具不支持 BMP 文件格式。 限制派生自工具而不是文档智能。

版本迁移

可以按照 文档智能 v3.1 迁移指南中的步骤了解如何在应用程序中使用文档智能 v3.0