生成和训练自定义提取模型

此内容适用于:选中标记v4.0(预览版) | 先前版本:蓝色复选标记v3.1 (GA)蓝色复选标记v3.0 (GA)蓝色复选标记v2.1

开始使用文档智能模型时需要的训练文档很少,有 5 个就可以。 如果你至少有 5 个文档,就可以开始训练自定义模型了。 你可以训练自定义模板模型(自定义表单)。 这两种模型的训练过程是相同的,本文档会指导你完成训练其中任意一种模型的过程。

自定义模型输入要求

首先,请确保训练数据集符合文档智能的输入要求。

  • 为获得最佳结果,请针对每个文档提供一张清晰的照片或高质量的扫描件。

  • 支持的文件格式:

    型号 PDF 图像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX) 和 HTML
    阅读
    布局 ✔(2024-02-29-preview、2023-10-31-preview)
    常规文档
    预生成
    自定义
  • 对于 PDF 和 TIFF,最多可处理 2000 页(对于免费层订阅,仅处理前两页)。

  • 用于分析文档的文件大小对于付费 (S0) 层为 500 MB,对于免费 (F0) 层为 4 MB。

  • 图像尺寸必须介于 50 x 50 像素与 10,000 x 10,000 像素之间。

  • 如果 PDF 是密码锁定的文件,则必须先删除锁,然后才能提交它们。

  • 对于 1024 x 768 像素的图像,要提取的文本的最小高度为 12 像素。 此尺寸对应于 150 点/英寸 (DPI) 的大约 8 号字文本。

  • 对于自定义模型训练,自定义模板模型的训练数据最大页数为 500,自定义神经模型的训练数据最大页数为 50,000。

  • 对于自定义提取模型训练,模板模型的训练数据总大小为 50 MB,神经模型的训练数据总大小为为 1G-MB。

  • 对于自定义分类模型训练,训练数据的总大小为 1GB,最大为 10,000 页。

训练数据提示

请按照以下提示来进一步优化用于训练的数据集:

  • 请使用基于文本的 PDF 文档而不是基于图像的文档。 扫描的 PDF 将作为图像被处理。
  • 对于包含输入字段的表单,请使用已填写完所有字段的示例。
  • 在每个字段中使用具有不同值的表格。
  • 如果表单图像质量较低,请使用较大的数据集(10-15 张图像)。

上传训练数据

在将用于训练的表单集或文档集放到一起后,需要将其上传到 Azure Blob 存储容器。 如果不知道如何使用容器创建 Azure 存储帐户,请按照 Azure 门户的 Azure 存储快速入门中的说明操作。 可以使用免费定价层 (F0) 试用该服务,然后再升级到付费层进行生产。

在文档智能工作室中创建项目

文档智能工作室会提供并编排完成数据集和训练模型所需的所有 API 调用。

  1. 首先,导航到“文档智能工作室”。 首次使用此 Studio 时,需要初始化订阅、资源组和资源。 然后,按照自定义项目的先决条件的说明将工作室配置为可以访问你的训练数据集。

  2. 在工作室中,选择自定义模型页上的“自定义模型”磁贴,并选择“创建项目”按钮。

    “在文档智能工作室中创建项目”的屏幕截图。

    1. 在“创建项目”对话框中,提供项目的名称,还可以选择是否提供说明,然后选择“继续”。

    2. 在工作流的下一步中,选择或创建文档智能资源,然后选择“继续”。

    “选择文档智能资源”的屏幕截图。

  3. 接下来,选择用于上传了自定义模型训练数据集的存储帐户。 如果训练文档位于容器的根目录,那么,“文件夹路径”中就应该是空的。 如果文档位于子文件夹中,请在“文件夹路径”字段中输入容器根目录中的相对路径。 在配置了存储帐户后,选择“继续”。

    “选择存储帐户”的屏幕截图。

  4. 最后,查看项目设置,然后选择“创建项目”,以创建新项目。 现在,应该会出现标记窗口,并且可以看到列出了你的数据集中的文件。

标记数据

在你的项目中,你的第一个任务是用要提取的字段来标记数据集。

屏幕左侧会列出已上传到存储的文件,其中第一个文件已准备就绪,可以进行标记。

  1. 通过选择屏幕右上方的加号 (➕) 按钮来开始标记数据集,并创建第一个字段。

    “创建标签”的屏幕截图。

  2. 输入该字段的名称。

  3. 通过选择文档中的字词,为字段分配一个值。 在右侧导航栏的下拉列表或字段列表中选择字段。 已标记的值位于字段列表中字段名称下方。

  4. 对所有要为数据集标记的字段都重复此过程。

  5. 通过选择每个文档并选择要标记的文本,标记数据集中剩余的文档。

现在,你已标记了数据集中所有的文档。 .labels.json.ocr.json 文件对应于训练数据集和新的 fields.json 文件中的每个文档。 提交此训练数据集来训练模型。

训练模型

在标记了数据集后,你现在已准备就绪,可以训练模型了。 请选择右上角的训练按钮。

  1. 在训练模型对话框中,提供独一无二的模型 ID,并添加说明(可选)。 该模型 ID 接受字符串数据类型。

  2. 对于生成模式,请选择要训练的模型的类型。 详细了解模型类型和功能

    “训练模型”对话框的屏幕截图。

  3. 选择“训练”,以启动训练过程。

  4. 模板模型会在几分钟内完成训练。 神经网络模型的训练最多可能需要 30 分钟。

  5. 导航到“模型”菜单,以查看训练操作的状态。

测试模型

在完成模型训练后,可通过在模型列表页上选择该模型来测试模型。

  1. 选择该模型,然后选择“测试”按钮。

  2. 选择 + Add 按钮,以选择用于测试该模型的文件。

  3. 选择了某个文件后,选择“分析”按钮,以测试该模型。

  4. 模型结果会显示在主窗口中,右侧导航栏中会列出提取的字段。

  5. 通过评估每个字段的结果来验证你的模型。

  6. 右侧导航栏还包含用于从 API 调用你的模型和 JSON 结果的示例代码。

祝贺你,你已了解如何在文档智能工作室中训练自定义模型! 你的模型已准备就绪,可以与 REST API 或 SDK 配合使用来进行文档分析了。

适用于:文档智能 v2.1 复选标记v2.1其他版本:v3.0

使用文档智能自定义模型时,可以向训练自定义模型操作提供你自己的训练数据,使该模型能够根据你特定于行业的表单进行训练。 遵循本指南了解如何收集和准备数据以有效地训练模型。

至少需要五个相同类型的已填充表单。

如果要使用手动标记的训练数据,则必须从至少五个相同类型的填充表单开始。 除了所需的数据集之外,还可以使用未标记的表单。

自定义模型输入要求

首先,请确保训练数据集符合文档智能的输入要求。

  • 为获得最佳结果,请针对每个文档提供一张清晰的照片或高质量的扫描件。

  • 支持的文件格式:

    型号 PDF 图像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX) 和 HTML
    阅读
    布局 ✔(2024-02-29-preview、2023-10-31-preview)
    常规文档
    预生成
    自定义
  • 对于 PDF 和 TIFF,最多可处理 2000 页(对于免费层订阅,仅处理前两页)。

  • 用于分析文档的文件大小对于付费 (S0) 层为 500 MB,对于免费 (F0) 层为 4 MB。

  • 图像尺寸必须介于 50 x 50 像素与 10,000 x 10,000 像素之间。

  • 如果 PDF 是密码锁定的文件,则必须先删除锁,然后才能提交它们。

  • 对于 1024 x 768 像素的图像,要提取的文本的最小高度为 12 像素。 此尺寸对应于 150 点/英寸 (DPI) 的大约 8 号字文本。

  • 对于自定义模型训练,自定义模板模型的训练数据最大页数为 500,自定义神经模型的训练数据最大页数为 50,000。

  • 对于自定义提取模型训练,模板模型的训练数据总大小为 50 MB,神经模型的训练数据总大小为为 1G-MB。

  • 对于自定义分类模型训练,训练数据的总大小为 1GB,最大为 10,000 页。

训练数据提示

请按照以下提示来进一步优化用于训练的数据集。

  • 请使用基于文本的 PDF 文档而不是基于图像的文档。 扫描的 PDF 将作为图像被处理。
  • 对于填充表单,请使用填充了所有字段的示例。
  • 在每个字段中使用具有不同值的表格。
  • 对于填充表单,请使用较大的数据集(10-15 张图像)。

上传训练数据

在将用于训练的文档集放到一起后,需要将其上传到 Azure Blob 存储容器。 如果不知道如何使用容器创建 Azure 存储帐户,请按照 Azure 门户的 Azure 存储快速入门中的说明操作。 使用标准性能层。

如果要使用手动标记的数据,则必须上传与训练文档对应的 .labels.json.ocr.json 文件。 可以使用示例标记工具(或你自己的 UI)生成这些文件。

组织子文件夹中的数据(可选)

默认情况下,训练自定义模型 API 将仅使用位于存储容器根目录下的文档。 但是,如果在 API 调用中指定子文件夹中的数据,则可以使用这些数据进行训练。 通常,训练自定义模型调用的正文采用以下格式,其中 <SAS URL> 是容器的共享访问签名 URL:

{
  "source":"<SAS URL>"
}

如果将以下内容添加到请求正文,则 API 将使用位于子文件夹中的文档进行训练。 "prefix" 字段是可选的,并将训练数据集限制为其路径以给定字符串开头的文件。 例如,"Test" 值会导致 API 仅查看以 Test 一词开头的文件或文件夹。

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

后续步骤

现在,你已了解如何生成训练数据集,接下来请按照快速入门教程来训练自定义文档智能模型,并在表单上开始使用它。

另请参阅