Microsoft Purview 中的自定义分类

本文介绍如何创建自定义分类来定义数据资产中组织独有的数据类型。 此外,还介绍如何创建可用于在整个数据资产中查找指定数据的自定义分类规则。

重要

要创建自定义分类,你需要对域或集合具有“数据管理者”或“数据源管理员”权限。 任何集合级别的权限都足够了。 有关权限的详细信息,请参阅:Microsoft Purview 数据治理权限

默认系统分类

Microsoft Purview 数据映射提供了大型默认系统分类集,可表示你在数据资产中可能具有的典型个人数据类型。 有关可用系统分类的完整列表,请参阅:Microsoft Purview 支持的分类

选择分类

如果任何默认分类都不能满足需求,还可以创建自定义分类。

注意

  • 数据采样规则同时适用于系统分类和自定义分类。
  • 自定义分类仅适用于 SQL 和 CosmosDB 等结构化数据源,以及 CSV、JSON 和 Parquet 等结构化文件类型。 自定义分类不适用于非结构化数据文件类型(例如 DOC、PDF 和 XLSX)。

创建自定义分类的步骤

若要创建自定义分类,请执行以下步骤:

  1. 你需要对任何集合都具有“数据管护者”或“数据源管理员”权限才能创建自定义分类。

  2. 在 Microsoft Purview 门户中,打开“数据映射”解决方案。

  3. 依次选择“注释管理”和“分类”。

  4. 选择“+ 新建” 。

    新建分类

此时将打开“添加新分类”窗格,你可以在其中为分类指定名称和说明。 最好使用名称间距约定,如 your company name.classification name

Microsoft 系统分类按保留的 MICROSOFT. 命名空间分组。 例如,MICROSOFT.GOVERNMENT.US.SOCIAL_SECURITY_NUMBER。

分类的名称必须以字母开头,后跟一系列字母、数字和句点 (.) 或下划线字符。 键入时,UX 会自动生成一个友好名称。 此友好名称是用户将其应用于目录中的资产时会看到的内容。

为了使名称简短,系统基于以下逻辑创建友好名称:

  • 除了命名空间的最后两段之外的所有部分都被剪裁掉。

  • 调整大小写,使每个单词的首字母大写。

  • 所有下划线 (_) 都替换为空格。

例如,如果已命名分类 contoso.hr.employee_ID,则友好名称将在系统中存储为 Hr.Employee ID。

Contoso.hr.employee_id

选择“确定”,然后新分类将会添加到“自定义”分类列表。

自定义分类

选择列表中的分类会打开分类详细信息页。 可在此处找到有关分类的所有详细信息。

这些详细信息包括实例计数、正式名称、关联的分类规则(如有),以及所有者名称。

选择分类

自定义分类规则

数据映射提供了一组默认分类规则,可由扫描程序用于自动检测某些数据类型。 还可以添加自己的自定义分类规则,以检测你可能有兴趣在整个数据资产中查找的其他数据类型。 当你尝试在数据资产中查找数据时,此功能会非常强大。

注意

自定义分类规则仅支持英语。

例如,假设名为 Contoso 的公司拥有在整个公司中已实现标准化的员工 ID,其中“Employee”一词后跟 GUID 来创建 EMPLOYEE{GUID}。 例如,员工 ID 的一个实例类似于 EMPLOYEE9c55c474-9996-420c-a285-0d0fc23f1f55

Contoso 可以通过创建自定义分类规则将扫描系统配置为查找这些 ID 的实例。 可以提供与数据模式匹配的正则表达式,在本例中为 \^Employee\[A-Za-z0-9\]{8}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{12}\$。 (可选)如果数据通常位于已知名称所在的列中(如 Employee_ID 或 EmployeeID),则他们可以添加列模式正则表达式,以使扫描更准确。 正则表达式的示例是 Employee_ID|EmployeeID。

然后,扫描系统可以使用此规则检查列中的实际数据和列名称来尝试标识找到了员工 ID 模式的每个实例。

创建自定义分类规则的步骤

按照上一部分中的说明创建自定义分类。 你将在分类规则配置中添加此自定义分类,以便系统在列中找到匹配项时应用它。

  1. 在 Microsoft Purview 门户中,打开“数据映射”解决方案。

  2. 在“注释管理”下,选择“分类规则”部分。

  3. 选择“新建”。

    添加新的分类规则

  4. 此时将打开“新建分类规则”对话框。 填充字段并决定是创建正则表达式规则还是创建字典规则。

    字段 描述
    名称 必需。 最大值为 100 个字符。
    说明 可选。 最大值为 256 个字符。
    分类名称 必需。 从下拉列表中选择分类的名称,以指示扫描程序在找到匹配项时应用该分类。
    状态 必需。 选项处于启用或禁用状态。 默认值为“已启用”。

    创建新的分类规则

创建正则表达式规则

重要

自定义分类中的正则表达式不区分大小写。

  1. 如果创建正则表达式规则,则会看到以下屏幕。 可以选择上传一个文件,该文件将用于为规则生成建议的正则表达式模式。 仅支持英语语言规则。

    创建新的正则表达式规则

  2. 如果决定生成建议的正则表达式模式,请在上传文件后,选择某个建议的模式,然后选择“添加到模式”以使用建议的数据和列模式。 可以调整建议的模式,也可以键入自己的模式,而无需上传文件。

    生成建议的正则表达式

    字段 说明
    数据模式 可选。 表示存储在数据字段中的数据的正则表达式。 限度很大。 在上面的示例中,数据模式测试员工 ID 是否为 Employee{GUID} 一词的字面意思。
    列模式 可选。 表示要匹配的列名称的正则表达式。 限度很大。
  3. 在“数据模式”下,可使用“最小匹配阈值”来设置扫描程序应用分类所必须在列中找到的非重复数据值匹配的最小百分比 。 建议的值为 60%。 如果指定多个数据模式,则此设置处于禁用状态,并且值固定为 60%。

    注意

    最小匹配阈值必须至少为 1%。

  4. 你现在可以验证规则并创建它。

  5. 在完成创建过程之前测试分类规则,验证是否会对资产应用标记。 规则中的分类将应用于上传的示例数据,就像在扫描中一样。 这意味着所有系统分类和自定义分类都将与文件中的数据一致。

    输入文件可以包含带分隔符的文件(CSV、PSV、SSV、TSV)、JSON 或 XML 内容。 将基于输入文件的文件扩展名对内容进行分析。 带分隔符的数据可能具有与上述任何类型一致的文件扩展名。 例如,TSV 数据可存在于名为 MySampleData.csv 的文件中。 此外,带分隔符的内容必须至少有三列。

    创建前的测试规则

    上传测试文件后查看应用的分类

创建字典规则

  1. 如果创建字典规则,则会看到以下屏幕。 上传一个包含要在单个列中创建的分类的所有可能值的文件。 仅支持英语语言规则。

    创建字典规则

  2. 生成字典后,可以调整最小匹配阈值并提交规则。

    创建字典规则,并附带“字典已生成”复选标记。

编辑或删除自定义分类

若要更新或编辑自定义分类,请执行以下步骤:

  1. 在 Microsoft Purview 门户中,打开“数据映射”解决方案。

  2. 在“注释管理”下选择“分类”

  3. 选择“自定义”选项卡。

  4. 选择要编辑的分类,然后选择“编辑”按钮。

    自定义分类页的屏幕截图,其中显示了所选分类并突出显示了编辑按钮。

  5. 现在可以编辑此自定义分类的说明。 完成后,选择“确定”按钮以保存更改。

若要删除自定义分类,请执行以下操作:

  1. 依次打开“数据映射”和“分类”后,选择“自定义”选项卡。
  2. 选择要删除的一个或多个分类,然后选择“删除”按钮。 自定义分类页的屏幕截图,其中显示了所选分类并突出显示了删除按钮。

还可以从分类本身内部编辑或删除分类。 只需选择该分类,然后在顶部菜单中选择“编辑”或“删除”按钮即可。

自定义分类资产页的屏幕截图,其中突出显示了页面顶部的编辑和删除按钮。

启用或禁用分类规则

  1. 在 Microsoft Purview 帐户中,选择“数据映射”,然后选择“分类规则”。

  2. 选择“自定义”选项卡。

  3. 可以通过查看表中的“状态”列来检查分类规则的当前状态。

  4. 选择要启用或禁用的一个或多个分类规则。

  5. 在顶部菜单中选择“启用”或“禁用”按钮。

    自定义分类规则页的屏幕截图,其中显示了所选的分类规则,并突出显示了启用和禁用按钮。

还可以在编辑规则时更新规则的状态。

编辑或删除分类规则

若要更新或编辑自定义分类规则,请执行以下步骤:

  1. 在 Microsoft Purview 帐户中,选择“数据映射”,然后选择“分类规则”。

  2. 选择“自定义”选项卡。

  3. 选择要编辑的分类规则,然后选择“编辑”按钮。

    自定义分类规则页的屏幕截图,其中显示了所选分类规则并突出显示了编辑按钮。

  4. 现在可以编辑状态、说明和关联的分类规则。

  5. 选择“继续”按钮。

  6. 可以上传正则表达式或字典规则的新文件以进行匹配,并更新匹配阈值和列模式匹配条件。

  7. 选择“应用”以保存所做的更改。 需要使用新规则重新运行扫描,以跨资产应用更改。

若要删除自定义分类,请执行以下操作:

  1. 依次打开“数据映射”和“分类规则”后,选择“自定义”选项卡。

  2. 选择要删除的分类规则,然后选择“删除”按钮。

    自定义分类规则页的屏幕截图,其中显示了所选分类规则并突出显示了删除按钮。

后续步骤

现在,创建了分类规则后,就可以将其添加到扫描规则集,以便扫描时使用该规则。 有关详细信息,请参阅创建扫描规则集