Azure AI 文档智能是一项创新的基于云的服务,它利用机器学习简化应用程序和工作流中的数据处理。 此服务对于提升数据驱动策略和改进文档搜索功能至关重要。 在这里,了解有助于 Azure AI 文档智能演变的关键里程碑和增强功能。 有关最新进展的详细信息,请参阅新增功能?。
备注
表单识别器现在称为 Azure AI 文档智能!
- 不会更改定价。
- Azure 计费、成本分析、价目表和价格 API 中将继续使用名称“认知服务”和“Azure 应用 AI”。
- 应用程序编程接口(API)或客户端库没有重大更改。
- 某些平台仍在等待命名更新。 文档中所有提及的表单识别器或文档智能均指同一 Azure 服务。
文档智能 v3.1 (GA)
文档智能 3.1 版 API 现已正式发布 (GA)! 此 API 版本对应于 2023-07-31
。
v3.1 API 引入并更新了多项功能:
- 文档智能 API 现在更模块化,并且支持可选功能。 现在可以自定义输出,专门包含所需的功能。 详细了解可选参数。
- 用于将单个文件拆分为多个独立文档的文档分类 API。 详细了解文档分类。
- 预构建的合同模型。
- 预构建的美国纳税表 1098 模型。
- 通过 Read API 支持 Office 文件类型。
- 识别文档中的二维码。
- 公式识别加载项功能。
- 字体识别加载项功能。
- 支持高分辨率文档。
- 自定义神经网络模型现在只需要一个标记样本即可进行训练。
- 自定义神经网络模型语言扩展。 使用 30 种语言训练文档的神经网络模型。 有关受支持语言的完整列表,请参阅语言支持。
- 🆕 预构建的医疗保险卡模型。
- 预构建的发票模型区域设置扩展。
- 预构建的收据模型语言和区域设置扩展,支持 100 多种语言。
- 预构建的身份证模型现在支持欧洲地区的身份证。
文档智能工作室用户体验更新
✔️ 分析选项
文档智能现支持更加复杂的分析功能,工作室允许通过统一入口(Azure 选项按钮)轻松配置加载项功能。
根据文档提取的使用场景配置分析范围、文档页面范围、可选检测,以及高级检测功能。
备注
字体提取在文档智能工作室中未进行可视化处理。 但你可以查看字体检测结果 JSON 输出中的样式部分。
✔️ 使用预构建模型或你自己的模型自动标记文档
在自定义提取模型标记页面,现在可以使用文档智能服务预构建的模型或你自己之前训练好的模型自动标记文档。
对于某些文档,运行自动标记后可能会有重复的标签。 请确保修改标签,以便标记页面之后不存在重复的标签。
✔️ 自动标记表
在自定义提取模型标记页面中,现在您可以自动标记文档中的表格,而无需手动标记。
动态图形截图展示了 Studio 中的自动表格标记功能。
✔️ 将测试文件直接添加到训练数据集
训练好自定义提取模型后,如果需要,可将测试文档上传到训练数据集,以利用测试页面来提高模型质量。
如果某些标签返回的置信度分数较低,请确保你的标签是正确的。 如果没有,请将其添加到训练数据集中,并重新标记以提高模型质量。
✔️ 在自定义项目中充分利用文档列表选项和筛选器
使用自定义提取模型标记页。 现在,可以使用按特征搜索、筛选和排序轻松浏览训练文档。
利用网格视图预览文档或使用列表视图更轻松地在文档间滚动浏览。
✔️ 项目共享
- 轻松共享自定义提取项目。 有关详细信息,请参阅使用自定义模型进行项目共享。
2023 版本的更新文档简介
🆕 文档智能概览具有增强的导航、结构化的访问点和丰富的图像。
(新)选择文档智能模型可指导你选择自己项目和工作流的最佳文档智能解决方案。
宣布推出最新的文档智能客户端库公共预览版
文档智能 REST API 版本 2023-02-28-preview 支持公共预览版客户端库。 此版本包括适用于 .NET/C# (4.1.0-beta-1)、Java (4.1.0-beta-1)、JavaScript (4.1.0-beta-1) 和 Python (3.3.0b.1) 客户端库的以下新特性和功能:
有关详细信息, 请参阅文档智能 SDK (../public preview) 和 2023 年 3 月发行 说明
重要
2023-02-28-preview
功能目前仅在以下区域可用:
- 中国北部
- 中国北部 2
- 中国北部
- 从 API 开始,自定义分类模型是文档智能中的一项新功能。
-
加载项功能:
- 现在,可以使用 API 识别
2023-02-28-preview
。 - 现在,可以使用 API 识别
2023-02-28-preview
。 - 现在,可以使用 API 识别
2023-02-28-preview
。
- 现在,可以使用 API 识别
-
自定义提取模型更新:
- 自定义模板模型现在具有改进的签名检测功能。
-
文档智能工作室更新:
- 除了支持分类和查询字段等所有新功能外,工作室现在还支持自定义模型项目的项目共享。
- 处于封闭预览版阶段的新增模型有:疫苗接种卡、合同、美国税务 1098、美国税务 1098-E 和美国税务 1098-T。 若要请求访问门控式预览版模型,请填写并提交文档智能个人预览版请求表单。
-
收据模型更新:
- 收据模型增加了对热收据的支持。
- 收据模型现在增加了对 18 种语言和三种区域性语言(英语、法语、葡萄牙语)的语言支持。
- 收据模型现在支持
TaxDetails
提取。
- 布局模型现在改进了表识别。
- 读取模型现在增加了对单位数字符识别的改进。
预生成收据模型 - 添加了支持的语言。 收据模型现在支持这些添加的语言和区域设置
- 日语 - 日本 (ja-JP)
- 法语 - 加拿大 (fr-CA)
- 荷兰语 - 荷兰 (nl-NL)
- 英语 - 阿拉伯联合酋长国 (en-AE)
- 葡萄牙语 - 巴西 (pt-BR)
预生成发票模型 - 添加了支持的语言。 发票模型现在支持这些添加的语言和区域设置
- 英语 - 美国 (en-US)、澳大利亚 (en-AU)、加拿大 (en-CA)、英国 (en-UK)、印度 (en-IN)
- 西班牙语 - 西班牙 (es-ES)
- 法语 - 法国 (fr-FR)
- 意大利语 - 意大利 (it-IT)
- 葡萄牙语 - 葡萄牙 (pt-PT)
- 荷兰语 - 荷兰 (nl-NL)
预生成发票模型 - 添加了识别的字段。 发票模型现在可识别这些添加的字段
- 货币代码
- 支付选项
- 总折扣
- 税项(仅限于 en-IN)
预生成 ID 模型 - 添加了支持的文档类型。 ID 模型现在支持这些添加的文档类型
- 美国军人 ID
提示
所有 2023 年 1 月更新均通过 REST API 版本 2022-08-31 (GA) 提供。
预生成收据模型 – 其他语言支持:
预生成收据模型添加了对以下语言的支持:
- 英语 - 阿拉伯联合酋长国 (en-AE)
- 荷兰语 - 荷兰 (nl-NL)
- 法语 - 加拿大 (fr-CA)
- 德语–(de-DE)
- 意大利语 - (it-IT)
- 日语 - 日本 (ja-JP)
- 葡萄牙语 - 巴西 (pt-BR)
预生成发票模型 - 其他语言支持和字段提取
预生成发票模型添加了对以下语言的支持:
- 英语 - 澳大利亚 (en-AU)、加拿大 (en-CA)、英国 (en-UK)、印度 (en-IN)
- 葡萄牙语 - 巴西 (pt-BR)
预生成发票模型现在添加了对以下字段提取的支持:
- 货币代码
- 支付选项
- 总折扣
- 税项(仅限于 en-IN)
预生成 ID 文件模型 - 其他文件类型支持
预生成 ID 文件模型现在添加了对以下文件类型的支持:
- 驾照,支持范围扩展到了印度、加拿大、英国和澳大利亚
- 美国军人身份证和文件
- 印度身份证和证件(PAN 和 Aadhaar)
- 澳大利亚身份证和证件(照片卡、钥匙通身份证)
- 加拿大身份证和证件(身份证、枫叶卡)
- 英国身份证和证件(国家/地区身份证)
文档智能平台更新
12 月文档智能工作室版本包含对文档智能工作室的最新更新。 用户体验有了显著的提升,特别是对于自定义模型标记支持方面。
页面范围。 工作室现在支持分析文档中的指定页面。
自定义模型标记:
自动运行布局 API。 在自定义模型的设置过程中,可以选择为 Blob 存储中的所有文档自动运行布局 API。
搜索。 工作室现在包含搜索功能,用于在文档中查找字词。 此改进有助于在标记时更轻松地导航。
导航。 可以选择标签以便以文档中标记的字词作为目标。
自动表标记。 选择文档中的表图标后,可以选择在标签视图中自动标记提取的表。
标签子类型和二级子类型 工作室现在支持表列、表行的子类型,以及日期和数字等类型的二级子类型。
US Gov 弗吉尼亚州区域现在支持生成自定义神经网络模型。
预览 API 版本
2022-01-30-preview
和2021-09-30-preview
将于 2023 年 1 月 31 日停用。 请更新到2022-08-31
API 版本以避免任何服务中断。
- 宣布推出 Azure AI 文档智能库的最新稳定版本
文档智能版本控制内容
文档智能文档已更新,以提供带版本控制的体验。 现在,可以选择查看针对
v3.0 GA
体验或v2.1 GA
体验的内容。 默认使用 v3.0 体验。
文档智能工作室示例代码
- GitHub 上现已提供文档智能工作室标记体验的示例代码。 客户可以开发文档智能并将其集成到自己的用户体验中,或者使用文档智能工作室示例代码自行构建新的用户体验。
语言扩展
- 最新预览版文档智能的读取 (OCR)、布局和自定义模板模型支持 134 种新语言。 添加的这些语言包括希腊语、拉脱维亚语、塞尔维亚语、泰语、乌克兰语、越南语以及几种拉丁语和西里尔语。 文档智能现在共有 299 种支持的语言,适用于最新的正式版和新预览版。 请参阅“受支持的语言”页面,查看所有受支持的语言。
- 使用 API 或相应的 SDK 在应用程序中支持新语言时,请使用 REST API 参数
api-version=2022-06-30-preview
。
全新预生成合同模型
- 全新的预生成方式,可从合同中提取信息(如当事方、标题、合同 ID、执行日期等)。 合同模型目前为预览版,在此处请求访问权限。
用于训练自定义神经模型的区域扩展
- 现已增加支持训练自定义神经模型的区域。
- 中国北部
- 中国北部 2
- 美国政府 亚利桑那州
- 现已增加支持训练自定义神经模型的区域。
备注
从版本 4.0.0 开始,引入了一组新的客户端来应用文档智能服务的最新功能。
SDK 版本 4.0.0 正式版包括以下更新:
- 版本 4.0.0 GA (2022-09-08)
- 支持 REST API v3.0 和 v2.0 客户端
文档智能 SDK beta 2022 年 8 月预览版包含以下更新:
版本 4.0.0-beta.5 (2022-08-09)
文档智能 v3.0 正式发布
- 文档智能 REST API v3.0 现已正式发布,可在生产应用程序中使用! 使用 REST API 版本 2022-08-31 更新应用程序。
文档智能处理平台更新
- 后续步骤。 在每个模型页下,工作室现在都有一个后续步骤部分。 用户可以快速参考示例代码、故障排除指南和定价信息。
- 自定义模型。 工作室现在包含在自定义模型项目中重新排序标签以提高标记效率的功能。
- 复制模型 自定义模型可以在工作室内跨文档智能服务进行复制。 此操作可以将经过训练的模型提升到其他环境和区域。
- 删除文档。 工作室现在支持从自定义项目中的已标记数据集中删除文档。
文档智能服务更新
- prebuilt-read。 读取 OCR 模型现在也可以在文档智能中使用,其中段落和语言检测是两项新功能。 文档智能读取的目标是与文档智能中更广泛的文档智能功能一致的高级文档方案。
- prebuilt-layout。 布局模型提取段落并识别提取的文本是段落、标题、节标题、脚注、页眉、页脚还是页码。
- prebuilt-invoice。 TotalVAT 和 Line/VAT 字段现在分别解析为现有字段 TotalTax 和 Line/Tax。
- prebuilt-idDocument。 数据提取支持美国州身份证、社会保障卡和绿卡。 支持护照签证信息。
- prebuilt-receipt。 扩展了对法语 (fr-FR)、西班牙语 (es-ES)、葡萄牙语 (pt-PT)、意大利语 (it-IT) 和德语 (de-DE) 的语言环境支持。
- prebuilt-businessCard。 地址解析支持提取地址组件的子字段,例如地址、城市、省/市/自治区、国家/地区和邮政编码。
AI 质量改进
- prebuilt-read。 增强了对单字符、手写日期、金额、名称以及收据和发票中常见的其他关键数据的支持,并改进了数字 PDF 文档的处理。
- prebuilt-layout。 支持更好地检测裁剪表、无边框表,并改进了对长跨度单元格的识别。
- 预构文档。 改进了数值和复选框检测。
- 文档智能 SDK beta 2022 年 6 月预览版包含以下更新:
版本 4.0.0-beta.4 (2022-06-08)
文档智能工作室 6 月版本是文档智能工作室的最新更新。 此更新中有大量用户体验和可访问性改进:
- JavaScript 和 C# 的代码示例。 除了现有的 Python 示例外,工作室代码选项卡现在还会添加 JavaScript 和 C# 代码示例。
- 新的文档上传用户界面。 工作室现在支持通过拖放将文档上传到新的上传界面。
- 自定义项目的新功能。 自定义项目目前支持在配置项目时创建存储帐户和 Blob。 此外,自定义项目现支持直接在工作室中上传训练文件并复制现有的自定义模型。
文档智能 v3.0 2022-06-30-preview 版本提供了跨功能 API 的大量更新:
- 布局扩展了结构提取。 布局现在包含添加的结构元素,包括部分、部分标题和段落。 此项更新可以实现更细致的文档分段方案。 有关已确定的结构元素的完整列表,请参阅增强的结构。
- 自定义模板模型表格字段支持跨页表。 自定义表单模型现在支持跨页的表格字段。
- 发票模型输出现在包含常规文档键值对。 如果发票包含预生成模型中所包含的字段之外的必填字段,则常规文档模型会使用键值对来补充输出。 请参阅键值对。
- 发票语言扩展。 发票模型包括扩展的语言支持。 请参阅支持的语言。
- 预生成名片现在包括日语支持。 请参阅支持的语言。
- 预生成 ID 文档模型。 身份证件模型现在可以从美国驾照中提取签发日期、身高、体重、眼睛颜色、头发颜色和文件判别器。 请参阅字段提取。
- 读取模型现在支持常见的 Microsoft Office 文档类型。 读取 API 现在支持 Word (docx)、Excel (xlsx) 和 PowerPoint (ppt) 等文档类型。 请参阅读取数据提取。
版本 4.0.0-beta.3 (2022-02-10)
文档智能 v3.0 预览版引入了几个新特性、功能和增强:
- W-2 预生成模型是一个新的预生成模型,可用于从 W-2 表单中提取字段以用于税务报告和收入确认场景。
- 读取 API 可提取印刷体文本行、单词、文本位置、检测到的语言和手写文本(如检测到)。
- 常规文档预训练模型现已更新为支持选择标记,此外还支持表格和文档中的 API 文本、表、结构和键值对。
- 发票 API 发票预生成模型扩展了对西班牙语发票的支持。
- 文档智能工作室新增了针对读取、W2、酒店收据示例的演示,并支持训练新的自定义神经模型。
- 语言扩展在文档智能读取、布局和自定义表单中,添加了对 42 种新语言(包括阿拉伯语、印地语及其他使用阿拉伯文和梵文的语言)的支持,覆盖范围扩大至 164 种语言。 手写语言支持扩展到了日语和韩语。
开始使用新的 v3.0 预览版 API。
文档智能模型数据提取:
型号 文本提取 键值对 选择标记 表 签名 读取 ✓ 常规文档 ✓ ✓ ✓ ✓ 布局 ✓ ✓ ✓ 发票 ✓ ✓ ✓ ✓ 回执 ✓ ✓ ✓ 身份文档 ✓ ✓ 名片 ✓ ✓ 自定义模板 ✓ ✓ ✓ ✓ ✓ 自定义神经网络 ✓ ✓ ✓ ✓ 文档智能 SDK beta 预览版包含以下更新:
-
- 自定义模板(前自定义表单)。
- 自定义模型 - 生成模式。
W-2 预生成模型 (../prebuilt-tax.us.w2)。
读取预生成模型 (../prebuilt-read)。
发票预生成模型 (西班牙语) (../prebuilt-invoice)。
-