创建 Document Intelligence Studio 自定义项目

此内容适用于:checkmarkv4.0 (GA) | 早期版本:blue-checkmarkv3.1 (GA)red-checkmarkv3.0(停用)

Azure Document Intelligence Studio 是一种联机工具,可用于直观地浏览、理解和集成文档智能中的功能并将其集成到应用程序中。 本快速入门旨在介绍如何在 Document Intelligence Studio 中设置自定义项目。

先决条件

有关订阅、资源和身份验证设置的信息,请参阅 Document Intelligence Studio 入门

适用于新用户的先决条件

除了 Azure 帐户和文档智能资源,还需要 Azure Blob 存储容器和 Azure 角色分配。

Azure Blob 存储容器

需要标准性能 Azure Blob 存储帐户。 可以创建容器以在存储帐户中存储和组织训练文档。 如果不知道如何使用容器创建 Azure 存储帐户,请按照以下快速入门作:

  • 创建存储帐户:创建存储帐户时,在 “实例详细信息>性能 ”字段中,选择“ 标准 性能”。
  • 创建容器:在 “新建容器 ”窗格中,将 “公共访问级别 ”字段设置为 “容器 ”(容器和 Blob 的匿名读取访问权限)。

Azure 角色分配

对于自定义项目,不同方案需要以下角色分配:

  • 基本

    • 认知服务用户:需要文档智能资源的此角色来训练自定义模型,或使用已训练的模型执行分析。
    • 存储 Blob 数据参与者:存储帐户需要此角色才能创建项目并标记数据。
  • 高级

    • 存储帐户参与者:存储帐户需要此角色才能设置跨域资源共享(CORS)设置。 (如果重复使用同一个存储帐户,此操作只需执行一次。)
    • 参与者:需要此角色来创建资源组和资源。

    注意

    如果为文档智能服务资源和存储帐户禁用本地(基于密钥的)身份验证,请确保分别获取认知服务用户和存储 Blob 数据参与者角色,以便有足够的权限使用 Document Intelligence Studio。 “存储帐户参与者”和“参与者”角色允许你列出密钥,但在密钥访问被禁用时,它们不会授予你使用这些资源的权限。

配置 CORS

必须在 Azure 存储帐户上配置跨域资源共享,才能从 Document Intelligence Studio 访问它。 若要在 Azure 门户中配置 CORS,需要访问存储帐户的 CORS 选项卡。

  1. 选择存储帐户的 CORS 选项卡。

    显示 Azure 门户中 CORS 设置菜单的屏幕截图。

  2. 首先,在 Blob 服务 选项卡上创建新的 CORS 条目。

  3. 允许的源 设置为 https://formrecognizer.appliedai.azure.cn

    显示存储帐户的 CORS 配置的屏幕截图。

    可以使用通配符 * 而不是指定的域来允许所有源域通过 CORS 发出请求。

  4. 选择 允许方法的所有可用八个选项。

  5. 通过在每个字段中输入星号(*),批准所有允许的标头暴露标头

  6. 将最大年龄设置为 120 秒或任何可接受的值。

  7. 若要保存更改,请选择页面顶部的“ 保存 ”。

现在,CORS 应已配置为使用文档智能工作室中的存储帐户。

示例文档集

  1. 登录到 Azure 门户。 转到存储帐户并选择 “数据存储>容器”。

    显示 Azure 门户中“数据存储”菜单的屏幕截图。

  2. 从列表中选择容器。

  3. 在页面顶部的菜单上,选择“ 上传”。

    显示 Azure 门户中的“容器上传”按钮的屏幕截图。

  4. “上传 Blob ”窗格中,选择要上传的文件。

    显示 Azure 门户中的“上传 Blob”窗格的屏幕截图。

注意

默认情况下,Document Intelligence Studio 使用位于容器根目录中的文档。 您可以在创建自定义窗体项目时通过指定文件夹路径来使用按文件夹组织的数据。 有关详细信息,请参阅 在子文件夹中组织数据

使用文档智能工作室功能

使用预生成模型或你自己的模型之一自动标记文档

在自定义提取模型的标签页上,现在可以使用文档智能服务预生成模型或已训练的模型之一自动标记文档。

显示自动标记的动画屏幕截图。

某些文档在运行自动标记后可能会出现重复的标签。 请确保修改标签,以便以后标签页上没有重复的标签。

显示自动标记后重复标签警告的屏幕截图。

自动为表格添加标签

在自定义提取模型的标记页上,现在可以自动标记文档中的表,而无需手动标记表。

显示自动表格标注的动画截图。

将测试文件直接添加到训练数据集

训练自定义提取模型后,如果需要,请使用测试页通过将测试文档上传到训练数据集来提高模型质量。

如果某些标签的置信度分数较低,请确保正确标注你的内容。 如果没有,请将这些样本添加到训练数据集中并重新标注,以提高模型质量。

显示如何将测试文件添加到训练数据集的动画屏幕截图。

在自定义项目中充分利用文档列表选项和筛选器

使用自定义提取模型的标签页,通过使用搜索、筛选和排序功能,轻松浏览训练文档。

使用网格视图预览文档,或使用列表视图更轻松地滚动浏览文档。

显示文档列表视图选项和筛选器的屏幕截图。

项目共享

轻松共享自定义提取项目。 有关详细信息,请参阅使用自定义模型进行项目共享