使用样本标记工具来训练模型
此内容适用于:v2.1。
提示
- 若要获得增强的体验和高级模型质量,请尝试文档智能 v3.0 工作室。
- v3.0 工作室支持任何使用 v2.1 标记数据进行训练的模型。
- 若要详细了解如何从 v2.1 迁移到 v3.0,可参阅 API 迁移指南。
- 请参阅 REST API 或 C#、Java、JavaScript 或 Python SDK 快速入门,了解如何开始使用版本 v3.0。
本文介绍如何使用表标记(标签)训练自定义模板模型。 某些情况下需要更复杂的标签,而不只是对齐键值对。 此类场景包括从具有复杂层次结构的表单提取信息,或遇到服务无法自动检测和提取的项。 在这些情况下,可以使用表标记来训练自定义模板模型。
应何时使用表标记?
下面是有关适合使用表标记场景的一些示例:
- 要提取的数据在表单中显示为表,表的结构是有意义的。 例如,表中的每一行表示一个项,行的每一列表示该项的一项特定功能。 在这种情况下,可以使用表标记,其中列表示功能,行表示每个功能的相关信息。
- 你希望提取的数据不会显示在特定表单域中,但从语义上讲,这些数据可以放入二维网格中。 例如,你的表单具有人员列表,其中包含名字、姓氏和电子邮件地址。 你希望提取此信息。 在这种情况下,可以使用表标记,其中以名字、姓氏和电子邮件地址作为列,并使用与列表中人员有关的信息填充每一行。
注意
Document Intelligence 会自动查找并提取文档中的所有表,无论表是否已标记。 因此,不必使用表标记来标记表单中的每个表,而且表标记无需复制在表单中找到的每个表的结构。 由 Document Intelligence 自动提取的表将包含在 JSON 输出的 pageResults 部分中。
使用 Document Intelligence 示例标记工具创建表标记
- 确定是需要动态还是固定大小的表标记。 如果行数与文档不同,则使用动态表标记。 如果文档中的行数保持一致,请使用固定大小的表标记。
- 如果表标记是动态的,则为每一列定义列名称以及数据类型和格式。
- 如果表标记是固定大小,则为每个标记定义列名称、行名称、数据类型和格式。
标记表标记数据
- 如果你的项目具有表标记,则可以打开“标签”面板并填充标记,就像标记键值字段一样。
后续步骤
按照我们的快速入门来训练和使用自定义 Document Intelligence 模型: