共用方式為

创建 Document Intelligence Studio 自定义项目

此内容适用于:v3.1 (GA)checkmark以前的版本:v3.0 (GA)blue-checkmark

Azure AI 文档智能工作室 是一种联机工具,可用于直观地浏览、理解和集成文档智能中的功能并将其集成到应用程序中。 本快速入门旨在介绍如何在 Document Intelligence Studio 中设置自定义项目。

先决条件

有关订阅、资源和身份验证设置的信息,请参阅 Document Intelligence Studio 入门

适用于新用户的先决条件

除了 Azure 帐户和文档智能或 Azure AI Foundry 资源,还需要 Azure Blob 存储容器和 Azure 角色分配。

Azure Blob 存储容器

需要标准性能 Azure Blob 存储帐户。 可以创建容器以在存储帐户中存储和组织训练文档。 如果不知道如何使用容器创建 Azure 存储帐户,请按照以下快速入门作:

  • 创建存储帐户:创建存储帐户时,在 “实例详细信息>性能 ”字段中,选择“ 标准 性能”。
  • 创建容器:在 “新建容器 ”窗格中,将 “公共访问级别 ”字段设置为 “容器 ”(容器和 Blob 的匿名读取访问权限)。

Azure 角色分配

对于自定义项目,不同方案需要以下角色分配。

  • 基本

    • 认知服务用户:需要文档智能或 Azure AI 服务资源的此角色来训练自定义模型或对已训练的模型进行分析。
    • 存储 Blob 数据参与者:存储帐户需要此角色才能创建项目并标记数据。
  • 高级

    • 存储帐户参与者:存储帐户需要此角色才能设置跨域资源共享(CORS)设置。 (如果重复使用同一存储帐户,此作是一次性的。
    • 参与者:需要此角色来创建资源组和资源。

    注意

    如果为文档智能服务资源和存储帐户禁用本地(基于密钥的)身份验证,请确保分别获取认知服务用户和存储 Blob 数据参与者角色,以便有足够的权限使用 Document Intelligence Studio。 存储帐户参与者和参与者角色允许列出密钥,但在禁用密钥访问时,它们不会授予使用资源的权限。

配置 CORS

必须在 Azure 存储帐户上配置跨域资源共享,才能从 Document Intelligence Studio 访问它。 若要在 Azure 门户中配置 CORS,需要访问存储帐户的 CORS 选项卡。

  1. 选择存储帐户的 CORS 选项卡。

    显示 Azure 门户中 CORS 设置菜单的屏幕截图。

  2. 首先,在 Blob 服务 选项卡上创建新的 CORS 条目。

  3. 允许的源 设置为 https://formrecognizer.appliedai.azure.cn

    显示存储帐户的 CORS 配置的屏幕截图。

    可以使用通配符 * 而不是指定的域来允许所有源域通过 CORS 发出请求。

  4. 选择 允许方法的所有可用八个选项。

  5. 通过在每个字段中输入星号 “、” 批准所有 允许的标头公开标头

  6. 将最大年龄设置为 120 秒或任何可接受的值。

  7. 若要保存更改,请选择页面顶部的“ 保存 ”。

现在,CORS 应已配置为使用文档智能工作室中的存储帐户。

示例文档集

  1. 登录到 Azure 门户。 转到存储帐户并选择 “数据存储>容器”。

    显示 Azure 门户中“数据存储”菜单的屏幕截图。

  2. 从列表中选择容器。

  3. 在页面顶部的菜单上,选择“ 上传”。

    显示 Azure 门户中的“容器上传”按钮的屏幕截图。

  4. “上传 Blob ”窗格中,选择要上传的文件。

    显示 Azure 门户中的“上传 Blob”窗格的屏幕截图。

注意

默认情况下,Document Intelligence Studio 使用位于容器根目录中的文档。 可以通过在创建自定义窗体项目的步骤中指定文件夹路径来使用文件夹中整理的数据。 有关详细信息,请参阅 在子文件夹中组织数据

使用文档智能工作室功能

使用预生成模型或你自己的模型之一自动标记文档

在自定义提取模型的标签页上,现在可以使用文档智能服务预生成模型或已训练的模型之一自动标记文档。

显示自动标记的动画屏幕截图。

某些文档在运行自动标记后可能会出现重复的标签。 请确保修改标签,以便以后标签页上没有重复的标签。

显示自动标记后重复标签警告的屏幕截图。

自动标记表

在自定义提取模型的标记页上,现在可以自动标记文档中的表,而无需手动标记表。

显示自动表标签的动画屏幕截图。

将测试文件直接添加到训练数据集

训练自定义提取模型后,如果需要,请使用测试页通过将测试文档上传到训练数据集来提高模型质量。

如果某些标签返回的置信度分数较低,则请确保正确地标记它们。 如果存在标记错误,请将其添加到训练数据集并重新标记以提高模型质量。

显示如何将测试文件添加到训练数据集的动画屏幕截图。

在自定义项目中充分利用文档列表选项和筛选器

使用自定义提取模型的标签页,通过使用搜索、筛选和排序功能,轻松浏览训练文档。

使用网格视图预览文档,或使用列表视图更轻松地滚动浏览文档。

显示文档列表视图选项和筛选器的屏幕截图。

项目共享

轻松共享自定义提取项目。 有关详细信息,请参阅使用自定义模型进行项目共享