文档处理模型

重要

  • 使用文档智能选公共预览版,可以提前使用目前正处于开发状态的功能。
  • 在正式发布 (GA) 之前,根据用户反馈,功能、方法和流程可能会发生更改。
  • 文档智能客户端库的公共预览版默认为 REST API 版本 2023-10-31-preview

此内容适用于:选中标记v4.0(预览版) | 先前版本:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)blue-checkmarkv2.1 (GA)

此内容适用于:选中标记v3.1 (GA) | 最新版本:purple-checkmarkv4.0(预览版) | 先前版本:blue-checkmarkv3.0blue-checkmarkv2.1

此内容适用于:选中标记v3.0 (GA) | 最新版本:purple-checkmarkv4.0(预览版)purple-checkmarkv3.1(预览版) | 先前版本:blue-checkmarkv2.1

此内容适用于:选中标记v2.1 | 最新版本:blue-checkmarkv4.0(预览版)

Azure AI 文档智能支持多种模型,让你能够向应用和流添加智能文档处理。 你可以使用预生成的特定于域的模型,或者训练根据特定业务需求和用例定制的自定义模型。 文档智能可与 REST API 或 Python、C#、Java 和 JavaScript 客户端库一起使用。

模型概述

下表显示了每个当前预览版和稳定 API 的可用模型:

模型类型 Model 2023-10-31-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
文档分析模型 读取 不适用
文档分析模型 布局
文档分析模型 常规文档 移动到布局 不适用
预生成的模型 名片 已弃用
预生成的模型 合约 不适用 不适用
预生成的模型 医疗保险卡 不适用
预生成的模型 ID 文档
预生成的模型 发票
预生成的模型 回执
预生成的模型 美国税务 1098 不适用 不适用
预生成的模型 美国税务 1098-E 不适用 不适用
预生成的模型 美国税务 1098-T 不适用 不适用
预生成的模型 美国税务 1099 不适用 不适用 不适用
预生成的模型 美国税务 W2 不适用
预生成的模型 附加功能 不适用 不适用
自定义模式 自定义分类器 不适用 不适用
自定义模式 自定义模板
自定义模式 自定义组合
加载项功能 加载项/免费 2023-10-31-preview 2023-07-31(正式发布) 2022-08-31(正式发布) v2.1 (GA)
字体属性提取 附加功能 不适用 不适用
公式提取 附加功能 不适用 不适用
高分辨率提取 附加功能 不适用 不适用
条形码提取 免费 不适用 不适用
语言检测 免费 不适用 不适用
键值对 免费 不适用 不适用 不适用
查询字段 附加功能* 不适用 不适用 不适用

附加功能* - 查询字段的定价与其他附加功能不同。 有关详细信息,请参阅定价

Model 描述
文档分析模型
读取 OCR 提取印刷体和手写体文本,包括字词、位置和检测到的语言。
布局分析 提取文本和文档布局元素,如表、选择标记、标题、章节标题。
预生成的模型
医疗保险卡 通过从美国医疗保险卡中提取保险公司、参保人、处方、组号和其他关键信息,自动执行医疗保健流程。
美国税务文件模型 处理美国税务表单,以提取员工、雇主、工资和其他信息。
合约 提取协议和合同各方详细信息。
发票 自动开具发票。
回执 从收据中提取收据数据。
身份文档 (ID) 从美国驾照和国际护照中提取身份 (ID) 字段。
名片 扫描名片,将关键字段和数据提取到应用程序中。
自定义模式
自定义模型(概述) 从特定于企业的表单和文档中提取数据。 自定义模型针对不同的数据和用例进行训练。
自定义提取模型 自定义模板模型使用布局提示从文档中提取值,适用于从具有定义的视觉模板的高度结构化文档中提取字段。
自定义分类模型 自定义分类模型可对输入文件中的每一页进行分类,以识别其中的文档,还可以识别输入文件中的多个文档或单个文档的多个实例
组合模型 将多个自定义模型组合成一个模型,以使用单个组合模型自动处理各种文档类型。

对于除业务卡模型以外的所有模型,文档智能现在都支持附加功能,以便进行更复杂的分析。 根据文档提取方案,可以启用和禁用这些可选功能。 2023-07-31 (GA) 及更高版本的 API 有七项附加功能:

分析功能

模型 ID 内容提取 查询字段 段落 段落角色 选择标记 键值对 语言 条形码 文档分析 公式* 字体样式* 高分辨率*
prebuilt-read O O O O O
预生成布局 O O O O O
预生成文档 O O O O O
prebuilt-businessCard
prebuilt-contract O O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
预生成的发票 O O O O O O
prebuilt-receipt O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099(变体) O O O O O
{ customModelName } O O O O O

✓ - 已启用
O - 可选
* - 高级功能会产生额外费用

读取 OCR

该读取 API分析并提取行、字词、其位置、检测到的语言以及手写样式(如果检测到)。

使用文档智能工作室处理的示例文档

使用文档智能工作室读取功能处理的示例文档的屏幕截图

布局分析

布局分析模型分析和提取文本、表、选择标记和其他结构元素,如标题、章节标题、页眉、页脚。

使用文档智能工作室处理的示例文档

使用文档智能工作室处理的示例报纸页的屏幕截图。

医疗保险卡

医疗保险卡模型将强大的光学字符识别 (OCR) 功能与深度学习模型相结合,可从美国医疗保险卡中分析和提取关键信息。

使用文档智能工作室处理的美国医疗保险卡示例

文档智能工作室中的美国医疗保险卡分析示例的屏幕截图。

美国税务文档

美国税务文件模型可从一组选定的税务文件中分析和提取关键字段和细列项目。 API 支持分析各种格式和质量的英语美国税务文档,包括手机捕获的图像、扫描的文档和数字 PDF。 当前支持以下模型:

型号 说明 ModelID
美国税务 W-2 提取应纳税所得详细信息。 prebuilt-tax.us.W-2
美国税务 1098 提取抵押贷款利息详细信息。 prebuilt-tax.us.1098
美国税务 1098-E 提取学生贷款利息详细信息。 prebuilt-tax.us.1098E
美国税务 1098-T 提取符合条件的学费详细信息。 prebuilt-tax.us.1098T
美国税务 1099 提取工资信息详情。 prebuilt-tax.us.1099(变体)

使用文档智能工作室处理的示例 W-2 文档

示例 W-2 的屏幕截图。

合约

合同模型从合同协议中提取关键字段和行项并进行分析,包括合同各方、司法管辖区、合同 ID 和标题。 该模型当前支持英语合同文档。

使用文档智能工作室处理的示例合同:

使用文档智能工作室的合同模型提取的屏幕截图。

发票

发票模型自动处理发票,以提取客户姓名、帐单邮寄地址、截止日期和到期金额、行项和其他关键数据。 目前,该模型支持英语、西班牙语、德语、法语、意大利语、葡萄牙语和荷兰语发票。

使用文档智能工作室处理的示例发票

示例发票的屏幕截图。

回执

使用收据模型,扫描印刷体和手写体销售收据中的商家名称、日期、行项、数量和总计。 版本 v3.0 还支持单页酒店收据处理。

使用文档智能工作室处理的示例收据

示例收据的屏幕截图。

身份文档 (ID)

使用身份文档 (ID) 模型处理美国驾照(所有 50 个州和哥伦比亚特区)和国际护照个人资料页(不包括签证和其他旅行文档),以提取关键字段。

使用文档智能工作室处理的美国驾照示例

示例身份证的屏幕截图。

自定义模式

自定义文档模型会分析和提取特定于企业的表单和文档中的数据。 它们已经过训练,可识别不同内容中的表单字段并提取键值对和表数据。 你只需要五个相同类型的表单示例即可开始。

版本 v3.0 自定义模型支持自定义表单(模板模型)中的签名检测,以及模板模型和神经模型中的跨页表。

使用文档智能工作室处理的自定义模板示例

文档智能工具“分析自定义表单”窗口的屏幕截图。

自定义提取

自定义提取模型可以是自定义模板。 若要创建自定义提取模型,请标记包含要提取的值的文档数据集,并基于标记的数据集训练模型。 只需要有五个相同表单或文档类型的示例即可开始。

使用文档智能工作室处理的自定义提取示例:

在文档智能工作室中进行自定义提取模型分析的屏幕截图。

自定义分类器

自定义分类模型可让你在调用提取模型之前标识文档类型。 该分类模型从 2023-07-31 (GA) API 开始提供。 训练自定义分类模型需要至少两个不同的类,且每个类至少需要五个样本。

组合模型

组合模型的创建方式是采用自定义模型的集合并将其分配到基于你的表单类型构建的单个模型。 可以将多个自定义模型分配给使用单个模型 ID 调用的组合模型。 最多可将 200 个经过训练的自定义模型分配到单个组合模型。

文档智能工作室中的组合模型对话框窗口

文档智能工作室的组合自定义模型对话框窗口的屏幕截图。

模型数据提取

模型 ID 文本提取 语言检测 选定标记 段落 结构 键值对 Fields
prebuilt-read
prebuilt-healthInsuranceCard.us
prebuilt-tax.us.w2
prebuilt-tax.us.1098
prebuilt-tax.us.1098E
prebuilt-tax.us.1098T
prebuilt-tax.us.1099(变体)
预生成文档
预生成布局
预生成的发票
prebuilt-receipt
prebuilt-idDocument
prebuilt-businessCard
自定义

输入要求

  • 为获得最佳结果,请针对每个文档提供一张清晰的照片或高质量的扫描件。

  • 支持的文件格式:

    型号 PDF 图像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX) 和 HTML
    阅读
    布局 ✔ (2023-10-31-preview)
    常规文档
    预生成
    自定义
  • 对于 PDF 和 TIFF,最多可处理 2000 页(对于免费层订阅,仅处理前两页)。

  • 用于分析文档的文件大小对于付费 (S0) 层为 500 MB,对于免费 (F0) 层为 4 MB。

  • 图像尺寸必须介于 50 x 50 像素与 10,000 x 10,000 像素之间。

  • 如果 PDF 是密码锁定的文件,则必须先删除锁,然后才能提交它们。

  • 对于 1024 x 768 像素的图像,要提取的文本的最小高度为 12 像素。 此尺寸对应于 150 点/英寸 (DPI) 的大约 8 号字文本。

  • 对于自定义模型训练,自定义模板模型的训练数据最大页数为 500,自定义神经模型的训练数据最大页数为 50,000。

  • 对于自定义提取模型训练,模板模型的训练数据总大小为 50 MB,神经模型的训练数据总大小为为 1G-MB。

  • 对于自定义分类模型训练,训练数据的总大小为 1GB,上限为 10,000 页。

注意

示例标记工具不支持 BMP 文件格式。 这是工具的一项限制,而不是文档智能服务的限制。

版本迁移

若要了解如何在应用程序中使用文档智能 v3.0,请按照我们的文档智能 v3.1 迁移指南操作

型号 描述
文档分析
布局 从文档中提取文本和布局信息。
预生成
发票 从英语版发票和西班牙语版发票中提取关键信息。
回执 从英语版收据中提取关键信息。
身份文档 从美国驾照和国际护照中提取关键信息。
名片 从英语版名片中提取关键信息。
自定义
自定义 从特定于企业的表单和文档中提取数据。 自定义模型针对不同的数据和用例进行训练。
组合 组合一批自定义模型,并将其分配给基于你的表单类型构建的单个模型。

Layout

布局 API 可分析和提取文档中的文本、表、标题、选择标记和结构信息。

使用示例标记工具处理的示例文档

使用示例标记工具进行的“布局”分析的屏幕截图。

发票

发票模型可以分析和提取销售发票中的关键信息。 该 API 可分析各种格式的发票并提取客户姓名、帐单邮寄地址、截止日期和未付金额等关键信息。

使用示例标记工具处理的示例发票

显示如何使用示例标记工具进行示例发票分析的屏幕截图。

回执

  • 收据模型可以分析和提取印刷体和手写体销售收据中的关键信息。

使用示例标记工具处理的示例收据

示例收据的屏幕截图。

身份文档

ID 文档模型分析和提取以下文档中的关键信息:

  • 美国驱动程序许可证(50 个州和哥伦比亚特区)

  • 国际护照的个人资料页(不包括签证和其他旅行证件)。 API 分析标识文档并提取

使用示例标记工具处理的示例美国驾照

示例身份证的屏幕截图。

名片

名片模型可分析和提取名片图像中的关键信息。

使用示例标记工具处理的示例名片

示例名片的屏幕截图。

自定义

  • 自定义模型会分析和提取特定于企业的表单和文档中的数据。 该 API 是已经过训练的机器学习程序,可识别不同内容中的表单字段并提取键值对和表数据。 你只需要五个相同类型的表单示例即可开始,自定义模型可以使用或不使用标记数据集进行训练。

使用示例标记工具处理的示例自定义模型

文档智能工具“分析自定义表单”窗口的屏幕截图。

组合自定义模型

组合模型的创建方式是采用自定义模型的集合并将其分配到基于你的表单类型构建的单个模型。 可以将多个自定义模型分配给使用单个模型 ID 调用的组合模型。 最多可将 100 个经过训练的自定义模型分配到单个组合模型。

使用示例标记工具编写的模型对话框窗口

文档智能工作室的组合自定义模型对话框窗口的屏幕截图。

模型数据提取

Model 文本提取 语言检测 选定标记 段落 段落角色 键值对 Fields
布局
发票
回执
ID 文档
名片
自定义表单

输入要求

  • 为获得最佳结果,请针对每个文档提供一张清晰的照片或高质量的扫描件。

  • 支持的文件格式:

    型号 PDF 图像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX) 和 HTML
    阅读
    布局 ✔ (2023-10-31-preview)
    常规文档
    预生成
    自定义
  • 对于 PDF 和 TIFF,最多可处理 2000 页(对于免费层订阅,仅处理前两页)。

  • 用于分析文档的文件大小对于付费 (S0) 层为 500 MB,对于免费 (F0) 层为 4 MB。

  • 图像尺寸必须介于 50 x 50 像素与 10,000 x 10,000 像素之间。

  • 如果 PDF 是密码锁定的文件,则必须先删除锁,然后才能提交它们。

  • 对于 1024 x 768 像素的图像,要提取的文本的最小高度为 12 像素。 此尺寸对应于 150 点/英寸 (DPI) 的大约 8 号字文本。

  • 对于自定义模型训练,自定义模板模型的训练数据最大页数为 500,自定义神经模型的训练数据最大页数为 50,000。

  • 对于自定义提取模型训练,模板模型的训练数据总大小为 50 MB,神经模型的训练数据总大小为为 1G-MB。

  • 对于自定义分类模型训练,训练数据的总大小为 1GB,上限为 10,000 页。

注意

示例标记工具不支持 BMP 文件格式。 这是工具的一项限制,而不是文档智能服务的限制。

版本迁移

若要了解如何在应用程序中使用文档智能 v3.0,可按照我们的文档智能 v3.1 迁移指南操作

后续步骤