共用方式為

什么是 Azure AI 文档智能?

此内容适用于:复选标记v4.0 (GA) | 以前的版本:蓝色复选标记v3.1 (GA)蓝色复选标记v3.0 (GA)蓝色复选标记v2.1 (GA)

此内容适用于:选中标记v3.1 (GA) | 先前版本:蓝色复选标记v3.0蓝色复选标记v2.1

此内容适用于:选中标记v3.0 (GA) | 最新版本:紫色复原标记v3.1 | 先前版本:蓝色复选标记v2.1

此内容适用于:选中标记 v2.1

Azure AI 文档智能是基于云的 Azure AI 服务 ,可用于构建智能文档处理解决方案。 大量数据(跨越各种数据类型)存储在窗体和文档中。 可以使用文档智能有效地管理收集数据和处理的速度。 文档智能是改进作、明智的数据驱动决策和启发式创新的关键。 有关区域访问的信息,请参阅 产品可用性(按区域)。

|✔️ 文档分析模型 |✔️ 预生成模型 |✔️ 自定义模型 |

文档分析模型

文档分析(常规提取)模型支持从表单和文档提取文本,并为组织的作、使用或开发返回结构化的业务就绪内容。

读取 |提取印刷体文本和手写文本。

布局 |提取文本、表和文档结构。

读取 |提取印刷
体文本和手写文本。

布局 |提取文本、表
和文档结构。

常规文档 |提取文本、结构和
键值对。

预生成的模型

可以使用预生成模型将智能文档处理添加到应用和流,而无需训练和生成自己的模型。

银行帐单 |从银行帐单中提取帐户信息和详细信息。

检查 |从检查中提取相关信息。

合同 |提取协议和参与方详细信息。

信用卡 |提取付款卡信息。

发票 |提取客户和供应商详细信息。

付款存根 |提取工资存根详细信息。

收据 |提取销售交易详细信息。

美国税务

统一美国税务 |从支持的任何美国税单中提取。

美国税务 W-2 |提取应纳税补偿详细信息。

美国税 1098 |提取 1098 变体详细信息。

美国税务 1099 |提取 1099 变体详细信息。

美国税 1040 |提取 1040 变体详细信息。

美国抵押贷款

美国抵押贷款 1003 |提取贷款申请详细信息。

美国抵押贷款 1004 |从评估中提取信息。

美国抵押贷款 1005 |从就业验证中提取信息。

美国抵押贷款 1008 |提取贷款传输详细信息。

美国抵押贷款披露 |提取最终结束贷款条款。

个人标识

健康保险卡 |提取保险保险详细信息。

标识 |提取验证详细信息。

结婚证 |提取经过认证的婚姻信息。

发票 |提取客户
和供应商详细信息。

收据 |提取销售
交易详细信息。

标识 |提取标识
和验证详细信息。

健康保险卡 |提取医疗保险详细信息。

名片 |提取业务联系人详细信息。

合同 |提取协议
和参与方详细信息。

美国税务 W-2 |提取应
纳税补偿详细信息。

美国税 1098 |提取 1098 变体详细信息。

自定义模式

自定义模型是使用标记数据集训练的,以便从特定于用例的窗体和文档中提取不同的数据。 可以组合独立自定义模型来创建组合模型。

文档字段提取模型

✔️ 文档字段提取模型经过训练,可以从文档中提取标记的字段。

自定义模板 |从静态布局中提取数据。

自定义组合 |使用模型集合提取数据。

自定义分类模型

✔️ 自定义分类器在调用提取模型之前识别文档类型。

自定义分类器 |在调用提取模型之前标识指定的文档类型(类)。

附加功能

文档智能支持可以根据文档提取方案启用或禁用的可选功能:

分析功能

模型 ID 内容提取 查询字段 段落 段落角色 选择标记 键/值对 语言 条形码 文档分析 公式* 样式字体* 高分辨率* 可搜索 PDF
prebuilt-read O O O O O O
prebuilt-layout O O O O O O
prebuilt-contract O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
prebuilt-invoice O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
prebuilt-bankStatement O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1004 O O O O O
prebuilt-mortgage.us.1005 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.w4 O O O O O
prebuilt-tax.us.1040 (各种) O O O O O
prebuilt-tax.us.1095A O O O O O
prebuilt-tax.us.1095C O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099 (各种) O O O O O
prebuilt-tax.us.1099SSA O O O O O
{ customModelName } O O O O O

✓ - 已启用
O - 可选
* - 高级功能会产生额外费用

模型和开发选项

使用文档智能在应用程序和工作流中自动执行文档处理,增强数据驱动策略,并丰富文档搜索功能。 请使用下表中的链接详细了解每种模型并浏览开发选项。

读取

显示使用文档智能工作室进行读取模型分析的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-read • 从文档中提取文本。
提取数据
• 数字化任何文档
• 合规性和审核
• 在翻译之前处理手写笔记
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

版式

显示使用文档智能工作室进行布局模型分析的屏幕截图。

模型 ID 说明 自动化用例 开发选项
预生成布局 • 从文档中提取文本和布局信息。
提取数据
• 按结构
编制索引和检索文档• 财务和医疗报告分析
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

常规文档(已在 2023-10-31-preview 中弃用)

显示使用文档智能工作室进行常规文档模型分析的屏幕截图。

模型 ID 说明 自动化用例 开发选项
预生成文档 • 从文档中提取文本、布局和键/值对。
提取数据和字段
• 键/值对提取
• 表单处理
• 调查数据收集和分析
文档智能工作室
REST API

发票

显示使用 Document Intelligence Studio 进行发票模型分析的屏幕截图。

模型 ID 说明 自动化用例 开发选项
预生成的发票 • 从发票中提取关键信息。
提取数据和字段
• 应付账款处理
• 自动税务记录和报告
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

回执

显示使用文档智能工作室进行收据模型分析的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-receipt • 从收据中提取关键信息。
提取数据和字段
• 收据模型 v3.0 支持处理单页酒店收据。
• 费用管理
• 消费者行为数据分析
• 客户忠诚计划
• 商品申报处理
• 自动税务记录和报告
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

标识 (ID)

显示使用文档智能工作室进行标识(ID)文档模型分析的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-idDocument • 从护照和身份证中提取密钥信息。
文档类型
• 从美国驾驶执照中提取认可、限制和车辆分类。
• 了解客户(KYC)金融服务准则符合
性• 医疗帐户管理
• 标识检查点和网关
• 酒店注册
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

医疗保险卡

显示使用 Document Intelligence Studio 进行健康保险卡模型分析的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-healthInsuranceCard.us • 从美国医疗保险卡中提取关键信息。
提取数据和字段
• 覆盖范围和资格验证
• 预测建模
• 基于值的分析
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

合同模型

显示使用 Document Intelligence Studio 提取合同模型的屏幕截图。

模型 ID 说明 开发选项
prebuilt-contract • 提取合同协议和参与方详细信息。
提取数据和字段
文档智能工作室
REST API

C# SDK
Python SDK
Java SDK
JavaScript

信用卡模型

显示使用文档智能工作室进行信用卡图像模型分析的屏幕截图。

模型 ID 说明 开发选项
prebuilt-creditCard • 提取合同协议和参与方详细信息。
提取数据和字段
文档智能工作室
REST API

C# SDK
Python SDK
Java SDK
JavaScript

结婚证模型

显示使用文档智能工作室进行婚姻证书文档模型分析的屏幕截图。

模型 ID 说明 开发选项
prebuilt-marriageCertificate.us • 提取合同协议和参与方详细信息。
提取数据和字段
文档智能工作室
REST API

C# SDK
Python SDK
Java SDK
JavaScript

美国抵押贷款 1003 表单

显示美国抵押贷款 1003 文档模型分析(使用文档智能工作室)的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-mortgage.us.1003 • 从 1003 贷款申请中提取关键信息。
提取数据和字段
Fannie Mae 和 Freddie Mac 文档要求 文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国抵押贷款 1004 表单

显示美国抵押贷款 1004 文档模型分析(使用文档智能工作室)的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-mortgage.us.1004 • 从 1004 评估中提取关键信息。
提取数据和字段
• 房利美和弗雷迪 Mac 文档要求
• 统一住宅评估报告,以帮助贷款人/客户具有主题财产的市场价值
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国抵押贷款 1005 表单

显示美国抵押贷款 1005 文档模型分析(使用文档智能工作室)的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-mortgage.us.1005 • 从 1005 验证就业中提取关键信息。
提取数据和字段
• 范妮·梅和弗雷迪 Mac 文档要求
• 就业文件验证,以确定资格作为潜在的杂项
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国抵押贷款 1008 表单

显示美国抵押贷款 1008 文档模型分析(使用文档智能工作室)的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-mortgage.us.1008 ● 从统一承销和传递汇总中提取信息。
提取数据和字段。 使用摘要数据处理贷款承销
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国抵押贷款披露表单

显示使用文档智能工作室进行美国抵押贷款关闭披露文档模型分析的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-mortgage.us.closingDisclosure ● 从统一承销和传递汇总中提取信息。
提取数据和字段
按揭贷款最终细节要求 文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国税 W-2 模型

显示使用文档智能工作室进行 W-2 模型分析的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-tax.us.w2 从 IRS US W2 税单(2018-2021 年)中提取关键信息。
• 自动税务文档管理
• 抵押贷款申请处理
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国税务 1098(和变体)表单

显示 Document Intelligence Studio 中分析的 US 1098 税务表单的屏幕截图。

模型 ID 说明 开发选项
prebuilt-tax.us.1098{variation} 从 1098 形式变体中提取关键信息。
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国税务 1099(和变体)表单

显示文档智能工作室中分析的美国 1099 税务表单的屏幕截图。

模型 ID 说明 开发选项
prebuilt-tax.us.1099{variation} 从 1099 格式变体中提取信息。
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国税务 1040(和变体)表单

显示使用 Document Intelligence Studio 进行美国税务 1040 税务表单模型分析的屏幕截图。

模型 ID 说明 开发选项
prebuilt-tax.us.1040{variation} 从 1040 格式变体中提取信息。
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国统一税表单

模型 ID 说明 开发选项
prebuilt-tax.us 从任何受支持的美国税单中提取信息。 文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

名片

显示使用 Document Intelligence Studio 进行名片模型分析的屏幕截图。

模型 ID 说明 自动化用例 开发选项
prebuilt-businessCard • 从名片中提取关键信息。
提取数据和字段
销售线索和营销管理 文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

自定义模型概述

显示使用 Document Intelligence Studio 进行自定义模型训练的屏幕截图。

关于 说明 自动化用例 开发选项
自定义模型 根据从一组具有代表性的训练文档集创建的模型,将表单和文档提取到结构化数据中。 从特定于企业和用例的表单和文档中提取不同数据。 文档智能工作室
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK

自定义模板

显示使用文档智能工作室进行自定义模板模型分析的屏幕截图。

注意

若要训练自定义模板模型,请将 buildMode 属性设置为 template。 有关详细信息,请参阅 训练模板模型

关于 说明 自动化用例 开发选项
自定义模板模型 从结构化和半结构化文档中提取带标签的值和字段。
从具有定义视觉模板或常见视觉布局和表单的高度结构化文档中提取关键数据。 文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK

自定义组合

关于 说明 自动化用例 开发选项
组合自定义模型 组合模型的创建方式是采用自定义模型的集合并将其分配到基于你的表单类型构建的单个模型。 训练多个模型并想要对模型进行分组以分析类似的表单类型(如采购订单)时非常有用 文档智能工作室
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK

自定义分类模型

显示 Document Intelligence Studio 中的自定义分类模型标签的屏幕截图。

关于 说明 自动化用例 开发选项
组合分类模型 自定义分类模型结合了布局和语言功能,以检测、识别和分类输入文件中的文档。 • 包含应用程序表单、付款单和银行帐单
的贷款申请包• 扫描发票集合
文档智能工作室
REST API

Azure AI 文档智能是一项基于云的 Azure AI 服务,便于开发人员构建智能文档处理解决方案。 文档智能基于机器学习以及文档理解技术应用光学字符识别(OCR),以便从文档中提取文本、表、结构和键/值对。 还可以标记和训练自定义模型,以自动从结构化、半结构化和非结构化文档提取数据。 若要详细了解每个模型,请参阅概念文章。

模型类型 模型名称
文档分析模型 布局分析模型
预生成的模型 发票模型

标识文档 (ID) 模型
名片模型
自定义模式 自定义模型
组合模型

此内容适用于:选中标记 v2.1

文档智能模型和开发选项

提示

若要获得增强的体验和高级模型质量,请尝试 使用 Document Intelligence v3.0 Studio

  • v3.0 工作室支持任何使用 v2.1 标记数据进行训练的模型。
  • 有关从 v2.1 迁移到 v3.0 的详细信息,请参阅 API 迁移指南。

若要详细了解每个模型并浏览 API 引用,请使用下表中的链接。

型号 说明 开发选项
布局分析 从窗体和文档提取和分析文本、选择标记、表格和边界框坐标 文档智能标记工具
REST API
客户端库 SDK
文档智能 Docker 容器
自定义模型 从特定于不同业务数据和用例的表单和文档提取和分析数据 文档智能标记工具
REST API
示例标记工具
文档智能 Docker 容器
发票模型 从销售发票自动处理和提取关键信息 文档智能标记工具
REST API
客户端库 SDK
文档智能 Docker 容器
收据模型 自动提取和处理销售收据中的重要信息。 文档智能标记工具
REST API
客户端库 SDK
文档智能 Docker 容器
标识文档 (ID) 模型 从美国驾照和国际护照自动数据处理和提取关键信息 文档智能标记工具
REST API
客户端库 SDK
文档智能 Docker 容器
名片模型 从名片自动处理和提取关键信息 文档智能标记工具
REST API
客户端库 SDK
文档智能 Docker 容器

数据隐私和安全性

与所有 AI 服务一样,使用文档智能的开发人员应了解有关客户数据的 Azure 策略。 有关详细信息,请参阅 文档智能的数据、隐私和安全性