文档处理模型

此内容适用于：v4.0 (GA) | 以前的版本：v3.1 (GA)v3.0 (GA)v2.1 (GA)

此内容适用于：v3.1 (GA) | 最新版本：v4.0 (GA) | 以前的版本：v3.0 v2.1

此内容适用于：v3.0 (GA) | 最新版本：v4.0 (GA)v3.1 | 以前的版本：v2.1

此内容适用于：checkmarkv2.1blue-checkmarkv4.0 (GA)

Azure 文档智能支持可用于向应用和流添加智能文档处理的各种模型。可以使用预构建的特定于域的模型或训练根据特定业务需求和用例定制的自定义模型。可以将文档智能与 REST API 或 Python、C#、Java 和 JavaScript 客户端库配合使用。

注意

涉及财务数据、受保护健康信息数据、个人身份数据或高度敏感数据的文档处理项目需要认真考虑。确保遵守所有国家/地区和行业特定的要求。

模型概述

下表显示了每个稳定 API 的 GA（一般可用）模型。

模型类型	型号	2024-11-30 （GA）	2023-07-31 （GA）	2022-08-31 （GA）	v2.1 （正式版）
文档分析模型	读取	✔️	✔️	✔️	不可用
文档分析模型	布局	✔️	✔️	✔️	✔️
文档分析模型	常规文档**	支持在...中布局模型	✔️	✔️	不可用
预生成的模型	合约	✔️	✔️	不可用	不可用
预生成的模型	医疗保险卡	✔️	✔️	✔️	不可用
预生成的模型	身份证件	✔️	✔️	✔️	✔️
预生成的模型	发票	✔️	✔️	✔️	✔️
预生成的模型	回执	✔️	✔️	✔️	✔️
预生成的模型	美国统一税*	✔️	不可用	不可用	不可用
预生成的模型	美国 1040 税*	✔️	✔️	不可用	不可用
预生成的模型	美国 1095 税*	✔️	不可用	不可用	不可用
预生成的模型	美国 1098 税*	✔️	不可用	不可用	不可用
预生成的模型	美国 1099 税*	✔️	不可用	不可用	不可用
预生成的模型	美国 W2 税	✔️	✔️	✔️	不可用
预生成的模型	美国 W4 税	✔️	不可用	不可用	不可用
预生成的模型	美国抵押贷款 1003 URLA	✔️	不可用	不可用	不可用
预生成的模型	美国抵押贷款 1004 URAR	✔️	不可用	不可用	不可用
预生成的模型	美国抵押贷款 1005	✔️	不可用	不可用	不可用
预生成的模型	美国抵押贷款 1008 摘要	✔️	不可用	不可用	不可用
预生成的模型	美国抵押贷款结算披露	✔️	不可用	不可用	不可用
预生成的模型	结婚证	✔️	不可用	不可用	不可用
预生成的模型	信用卡	✔️	不可用	不可用	不可用
预生成的模型	名片	弃用的	✔️	✔️	✔️
自定义分类模型	自定义分类器	✔️	✔️	不可用	不可用
自定义提取模型	自定义模板	✔️	✔️	✔️	✔️
自定义提取模型	自定义生成	✔️	✔️	✔️	✔️
所有模型	附加功能	✔️	✔️	不可用	不可用

* 包含子模型。有关支持的变体和子类型，请参阅特定于模型的信息。
** 常规文档模型的所有功能在布局模型中均可用。不再支持常规模型。

延迟

延迟是 API 服务器处理传入请求并将传出响应传递给客户端所需的时间。分析文档的时间取决于文档的大小（例如，页数）和每一页上的关联内容。文档智能是一种多租户异步服务，其中类似文档的延迟是可比的，但并非总是完全相同。延迟和性能偶尔的可变性固有于任何基于微服务的无状态服务，可大规模处理图像和大型文档。虽然我们在不断扩展硬件和容量以及扩展功能，但你可能仍会在运行时遇到延迟问题。

加载项功能

以下附加功能可用于文档智能功能。对于除名片模型之外的所有模型，文档智能现在支持附加功能，以便进行更复杂的分析。可以启用和禁用这些可选功能，具体取决于文档提取的方案。以下附加功能适用于 2023-07-31（GA）及更高版本的 API 版本：

ocrHighResolution
formulas
styleFont
barcodes
languages
keyValuePairs
queryFields （不适用于含有美国税的模型）
searchablePDF（仅适用于读取模型）

附加功能	插件/免费	2024-11-30 （GA）	2023-07-31 （GA）	2022-08-31 （GA）	v2.1 （正式版）
字体属性提取	加载项	✔️	✔️	不可用	不可用
公式提取	加载项	✔️	✔️	不可用	不可用
高分辨率提取	加载项	✔️	✔️	不可用	不可用
条形码提取	免费	✔️	✔️	不可用	不可用
语言检测	免费	✔️	✔️	不可用	不可用
键/值对	免费	✔️	不可用	不可用	不可用
查询字段	加载项*	✔️	不可用	不可用	不可用
可搜索 PDF	插件	✔️	不可用	不可用	不可用

模型分析功能

模型 ID	内容提取	查询字段	段落	段落角色	选择标记	表	键/值对	语言	条形码	文档分析	公式*	样式字体*	高分辨率*	可搜索 PDF
`prebuilt-read`	✓		✓					O	O		O	O	O	O
`prebuilt-layout`	✓	✓	✓	✓	✓	✓	O	O	O		O	O	O
`prebuilt-contract`	✓	✓	✓	✓	✓			O	O	✓	O	O
`prebuilt-healthInsuranceCard.us`	✓	✓						O	O	✓	O	O	O
`prebuilt-idDocument`	✓	✓						O	O	✓	O	O	O
`prebuilt-invoice`	✓	✓			✓	✓	O	O	O	✓	O	O	O
`prebuilt-receipt`	✓	✓						O	O	✓	O	O	O
`prebuilt-marriageCertificate.us`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-creditCard`	✓	✓						O	O	✓	O	O	O
`prebuilt-check.us`	✓	✓						O	O	✓	O	O	O
`prebuilt-payStub.us`	✓	✓						O	O	✓	O	O	O
`prebuilt-bankStatement`	✓	✓						O	O	✓	O	O	O
`prebuilt-mortgage.us.1003`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.1004`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.1005`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.1008`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.closingDisclosure`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.w2`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.w4`	✓	✓						O	O	✓	O	O	O
`prebuilt-tax.us.1040` （各种）	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1095A`	✓	✓						O	O	✓	O	O	O
`prebuilt-tax.us.1095C`	✓	✓						O	O	✓	O	O	O
`prebuilt-tax.us.1098`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1098E`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1098T`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1099` （各种）	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1099SSA`	✓	✓						O	O	✓	O	O	O
`{ customModelName }`	✓	✓	✓	✓	✓	✓		O	O	✓	O	O	O

✓ - 已启用
O - 可选
* - 高级功能会产生额外费用

查询字段的价格与其他附加功能不同。有关详细信息，请参阅定价。

边界框和多边形坐标

边界框（polygon 在 v3.0 及更高版本中）是一个抽象矩形，它环绕文档中的文本元素。用于对象检测的参考点是边界框 (bounding box)：

边界框使用包含四个数值对的数组中的 x 和 y 坐标平面指定位置。每一对依次代表盒子的一角，顺序为：左上、右上、右下、左下。
图像坐标以像素来表示。对于 PDF，坐标以英寸来表示。

语言支持

基于深度学习的文档智能中的通用模型支持多种语言。模型可以从图像和文档中提取多语言文本，包括带有混合语言的文本行。语言支持因文档智能服务的功能而异。有关完整列表，请参阅以下文章：

区域可用性

文档智能已在 Azure 全球基础结构区域中的许多区域中正式发布。

模型详细信息

本部分介绍每个模型可以期待的输出。可以使用附加功能扩展大多数模型的输出。

读取 OCR

读取 API 使用光学字符识别（OCR）来分析和提取行和单词、其位置、检测到的语言和手写样式（如果检测到）。

此示例文档是使用 Document Intelligence Studio 处理的。

展示通过使用 Document Intelligence Studio 读取功能处理的示例文档的屏幕截图。

了解详细信息：阅读模型

布局分析

布局分析模型分析和提取文本、表、选择标记和其他结构元素，如标题、节标题、页眉和页脚。

此示例文档是使用 Document Intelligence Studio 处理的。

显示使用文档智能工作室处理的示例报纸页面的屏幕截图。

了解详细信息：布局模型

医疗保险卡

健康保险卡模型将强大的 OCR 功能与深度学习模型相结合，从美国医疗保险卡分析和提取关键信息。

此示例美国医疗保险卡是使用 Document Intelligence Studio 处理的。

了解详细信息：医疗保险卡模型

美国税务文档

美国税务文件模型可从一组选定的税务文件中分析和提取关键字段和细列项目。该 API 支持分析各种格式和质量的英语美国税务文档，包括手机捕获的图像、扫描的文档和数字 PDF。当前支持以下模型：

型号	说明	模型 ID
美国税务表格W-2	提取应税补偿详细信息。	`prebuilt-tax.us.w2`
美国税务 W-4	提取应纳税补偿的详细信息。	`prebuilt-tax.us.w4`
美国税 1040	提取抵押贷款利息详细信息。	`prebuilt-tax.us.1040` （变体）
美国税 1095	提取医疗保险详细信息。	`prebuilt-tax.us.1095` （变体）
美国税 1098	提取有关抵押贷款利息的详细信息。	`prebuilt-tax.us.1098` （变体）
美国税 1099	获取来自非雇主的收入。	`prebuilt-tax.us.1099` （变体）

此示例 W-2 文档是使用文档智能工作室处理的。

显示示例 W-2 文档的屏幕截图。

了解详细信息：税务文档模型

美国抵押贷款文档

美国抵押贷款文档模型分析和提取包括借款人、贷款和财产信息在内的关键字段，这些字段来自一组选定的抵押贷款文档。该 API 支持分析各种格式和质量的英语美国抵押贷款文档，包括手机捕获的图像、扫描的文档和数字 PDF。目前支持以下模型。

型号	说明	模型 ID
1003 最终用户许可协议	提取贷款、借款人、物业信息。	`prebuilt-mortgage.us.1003`
1004 统一住宅评估报告（URAR）	提取出贷款、借贷、资产详细信息。	`prebuilt-mortgage.us.1004`
1005 就业验证	提取贷款、借款人、房产详细信息。	`prebuilt-mortgage.us.1005`
1008 摘要文档	提取借款人、卖方、财产、抵押贷款和承销详细信息。	`prebuilt-mortgage.us.1008`
结案披露文件	提取结算、交易成本和贷款详细信息。	`prebuilt-mortgage.us.closingDisclosure`

此示例“关闭披露”文档是使用 Document Intelligence Studio 处理的。

示例结束披露文件的屏幕截图。

详细了解：抵押贷款文档模型

合约

合同模型从合同协议（包括当事人、司法管辖区、合同 ID 和标题）中分析和提取关键字段和行项。该模型当前支持英语合同文档。

此示例协定是使用 Document Intelligence Studio 处理的。

显示使用 Document Intelligence Studio 提取合同模型的屏幕截图。

了解详细信息：合同模型

发票

发票模型自动处理发票，以提取客户姓名、帐单地址、截止日期、到期金额、行项和其他关键数据。

此示例发票是使用 Document Intelligence Studio 处理的。

了解详细信息：发票模型

回执

使用收据模型扫描打印和手写收据中的商家名称、日期、条目、数量和总计。版本 v3.0 还支持单页酒店收据处理。

此示例收据是使用 Document Intelligence Studio 处理的。

了解详细信息：收据模型

身份证件

使用标识文档（ID）模型处理美国驾驶执照（所有50个州和哥伦比亚区）以及国际护照（不包括签证和其他旅行证件）的传记页，以提取关键字段。

此示例美国驾照是使用Document Intelligence Studio处理的。

了解详细信息：标识文档模型

结婚证

使用婚姻证模型处理美国婚姻证书，以提取关键字段，包括个人、日期和位置。

此示例美国婚姻证书是使用文档智能工作室处理的。

了解详细信息：标识文档模型

信用卡

使用信用卡模型处理信用卡和借记卡以提取关键字段。

此示例信用卡是使用 Document Intelligence Studio 处理的。

了解详细信息：标识文档模型

自定义模式

自定义模型被广泛分类为两种类型。支持“文档类型”分类的自定义分类模型，以及可以从特定文档类型中提取定义的架构的自定义提取模型。

显示自定义模型的类型和关联的模型生成模式的关系图。

自定义文档模型会分析和提取特定于企业的表单和文档中的数据。它们可识别不同内容中的表单字段，并提取键/值对和表数据。只需一个表单类型的例子即可开始。

版本 v3.0 及更高版本的自定义模型支持自定义模板（表单）中的签名检测，以及模板模型和神经网络模型中的跨页表。签名检测检测是否存在某个签名，而不是文档签名者的标识。如果模型在执行签名检测时返回“未签名”，则表示模型未在定义的字段中找到签名。

此示例自定义模板是使用 Document Intelligence Studio 处理的。

显示文档智能分析自定义窗体的屏幕截图。

了解详细信息：自定义模型

自定义提取

自定义提取模型可以是自定义模板。若要创建自定义提取模型，请标记包含要提取的值的文档数据集，并基于标记的数据集训练模型。只需五个相同窗体或文档类型的示例即可开始使用。

此示例自定义提取是使用 Document Intelligence Studio 处理的。

显示 Document Intelligence Studio 中的自定义提取模型分析的屏幕截图。

了解详细信息：自定义模板模型

自定义分类器

使用自定义分类模型，可以在调用提取模型之前标识文档类型。分类模型从 2023-07-31 （GA） API 开始提供。训练自定义分类模型需要至少两个不同的类，且每个类至少需要五个样本。

了解详细信息：自定义分类模型

组合模型

组合模型通过以下方式创建：将一组自定义模型集合起来，并用其构建一个基于你的表单类型的单一模型。可以将多个自定义模型分配给使用单个模型 ID 调用的组合模型。最多可将 200 个经过训练的自定义模型分配到单个组合模型。

此示例组合模型位于 Document Intelligence Studio 中。

Document Intelligence Studio Compose 自定义模型窗格的屏幕截图。

了解详细信息：自定义模型

输入要求

支持以下文件格式。

型号	PDF	图片： JPEG/JPG、PNG、BMP、TIFF、HEIF	Office： Word（DOCX）、Excel（XLSX）、PowerPoint（PPTX）、HTML
读取	✔	✔	✔
版式	✔	✔	✔
常规文档	✔	✔
预制	✔	✔
自定义提取	✔	✔
自定义分类	✔	✔	✔

照片和扫描：为获得最佳结果，请为每个文档提供一张清晰的照片或高质量的扫描。
PDF 和 TIFF：对于 PDF 和 TIFF，最多可以处理 2,000 页。（使用免费层订阅时，只处理前两个页面。
文件大小：用于分析文档的文件大小是付费层（S0）层的 500 MB，免费层为 4 MB（F0）层。
图像尺寸：尺寸必须介于 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之间。
密码锁：如果 PDF 是密码锁定的，则必须在提交之前删除该锁。
文本高度：要提取的文本的最小高度是 1024 x 768 像素图像的 12 像素。此尺寸对应于 8 点大约文本，即每英寸 150 点。
自定义模型训练：自定义模板模型的最大训练页数为 500，自定义神经模型为 50,000。
自定义提取模型训练：对于模板模型，训练数据的总大小为 50 MB，神经网络模型为 1 GB。
自定义分类模型训练：训练数据的总大小为 1 GB，最大为 10,000 页。对于 2024-11-30（GA），训练数据的总大小为 2 GB，最大为 10,000 页。
Office 文件类型（DOCX、XLSX、PPTX）：最大字符串长度限制为 800 万个字符。

注意

示例标记工具不支持 BMP 文件格式。此限制派生自工具而不是文档智能服务。

版本迁移

按照文档智能 v3.1 迁移指南中的步骤了解如何在应用程序中使用文档智能 v3.0。

型号	说明
文档分析
布局	从文档中提取文本和布局信息。
预制
发票	从英语和西班牙语发票中提取关键信息。
回执	从英语收据中提取关键信息。
身份证件	从美国驾照和国际护照中提取关键信息。
名片	从英语名片中提取关键信息。
自定义
自定义	从特定于企业的表单和文档中提取数据。自定义模型针对不同的数据和用例进行训练。
组合	组合一批自定义模型，并将其分配给基于你的表单类型构建的单个模型。

版式

布局 API 可分析和提取文档中的文本、表、标题、选择标记和结构信息。

此示例文档是使用示例标记工具处理的。

显示使用示例标记工具进行布局分析的屏幕截图。

了解详细信息：布局模型

发票

发票模型可以分析和提取销售发票中的关键信息。该 API 可分析各种格式的发票并提取客户姓名、帐单邮寄地址、截止日期和未付金额等关键信息。

此示例发票是使用示例标记工具处理的。

显示使用示例标记工具的示例发票分析的屏幕截图。

了解详细信息：发票模型

回执

收据模型可以分析和提取印刷体和手写体销售收据中的关键信息。

此示例收据是使用示例标记工具处理的。

了解详细信息：收据模型

身份文档

ID 文档模型分析和提取以下文档中的关键信息：

美国驾驶执照（所有50个州和哥伦比亚区）
国际护照的个人资料页（不包括签证和其他旅行证件）。 API 分析和提取标识文档。

此示例美国驾照是使用示例标记工具处理的。

显示示例标识卡的屏幕截图。

了解详细信息：标识文档模型

名片

名片模型可分析和提取名片图像中的关键信息。

此示例名片是使用示例标记工具处理的。

显示示例名片的屏幕截图。

了解详细信息：名片模型

自定义

自定义模型会分析和提取特定于企业的表单和文档中的数据。 API 是一个机器学习程序，用于识别不同内容中的表单字段并提取键/值对和表数据。只需五个同一类型的窗体示例即可开始。可以使用或不使用标记数据集来训练自定义模型。

此示例自定义模型是使用示例标记工具处理的。

显示文档智能工具分析自定义窗体窗格的屏幕截图。

了解详细信息：自定义模型

组合自定义模型

组合模型通过以下方式创建：将一组自定义模型集合起来，并用其构建一个基于你的表单类型的单一模型。可以将多个自定义模型分配给使用单个模型 ID 调用的组合模型。最多可将 100 个经过训练的自定义模型分配到单个组合模型。

此组合模型窗格是使用示例标记工具处理的。

Document Intelligence Studio Compose 自定义模型窗格的屏幕截图。

了解详细信息：自定义模型

模型数据提取

型号	文本提取	选择标记	表	段落	段落角色	键/值对	Fields
布局	✓	✓	✓	✓	✓
发票	✓	✓	✓	✓		✓	✓
回执	✓			✓			✓
身份证件	✓			✓			✓
名片	✓			✓			✓
自定义表单	✓	✓	✓	✓			✓

输入要求

支持以下文件格式。

型号	PDF	图片： JPEG/JPG、PNG、BMP、TIFF、HEIF	Office： Word（DOCX）、Excel（XLSX）、PowerPoint（PPTX）、HTML
读取	✔	✔	✔
版式	✔	✔	✔
常规文档	✔	✔
预制	✔	✔
自定义提取	✔	✔
自定义分类	✔	✔	✔

照片和扫描：为获得最佳结果，请为每个文档提供一张清晰的照片或高质量的扫描。
PDF 和 TIFF：对于 PDF 和 TIFF，最多可以处理 2,000 页。（使用免费层订阅时，只处理前两个页面。
文件大小：用于分析文档的文件大小是付费层（S0）层的 500 MB，免费层为 4 MB（F0）层。
图像尺寸：尺寸必须介于 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之间。
密码锁：如果 PDF 是密码锁定的，则必须在提交之前删除该锁。
文本高度：要提取的文本的最小高度是 1024 x 768 像素图像的 12 像素。此尺寸对应于 8 点大约文本，即每英寸 150 点。
自定义模型训练：自定义模板模型的最大训练页数为 500，自定义神经模型为 50,000。
自定义提取模型训练：对于模板模型，训练数据的总大小为 50 MB，神经网络模型为 1 GB。
自定义分类模型训练：训练数据的总大小为 1 GB，最大为 10,000 页。对于 2024-11-30（GA），训练数据的总大小为 2 GB，最大为 10,000 页。
Office 文件类型（DOCX、XLSX、PPTX）：最大字符串长度限制为 800 万个字符。

注意

示例标记工具不支持 BMP 文件格式。限制是由工具引起的，而非文档智能。

版本迁移

可以按照文档智能 v3.1 迁移指南中的步骤了解如何在应用程序中使用文档智能 v3.0

使用 Document Intelligence Studio 处理自己的表单和文档。
完成文档智能快速入门，然后使用所选的开发语言创建文档处理应用。

使用文档智能示例标记工具处理自己的表单和文档。
完成文档智能快速入门，然后使用所选的开发语言创建文档处理应用。

Last updated on 2026-02-13

文档处理模型

模型概述

延迟

加载项功能

模型分析功能

边界框和多边形坐标

语言支持

区域可用性

模型详细信息

读取 OCR

布局分析

医疗保险卡

美国税务文档

美国抵押贷款文档

合约

发票

回执

身份证件

结婚证

信用卡

自定义模式

自定义提取

自定义分类器

组合模型

输入要求

版本迁移

版式

发票

回执

身份文档

名片

自定义

组合自定义模型

模型数据提取

输入要求

版本迁移

相关内容

其他资源