Microsoft Purview 数据映射中的分类最佳做法

项目
2024/07/08

Microsoft Purview 数据映射中的数据分类是一种通过将唯一的逻辑标签或类分配给数据资产来对数据资产进行分类的方法。分类基于数据的业务上下文。例如，可以按护照号码、驾照编号、信用卡号码、SWIFT 代码、个人姓名等对资产进行分类。若要详细了解分类本身，请参阅分类一文。

本文介绍在对数据资产进行分类时要采用的最佳做法，以便让扫描更加高效，并尽可能获得关于整个数据资产的最完整的信息。

扫描规则集

利用扫描规则集，你可以配置应该应用于数据源特定扫描的相关分类。选择相关系统分类，或选择自定义分类（如果已针对要扫描的数据创建自定义分类）。

例如，在下图中，只会对要扫描的数据源（例如财务数据）应用特定的所选系统和自定义分类。

注释管理

在决定要应用哪些分类时，建议执行以下操作：

转到“数据映射”>“管理”>“分类”窗格。
查看要应用于你要扫描的数据资产的可用系统分类。系统分类的正式名称具有 MICROSOFT 前缀。
如有必要，请创建自定义分类。依次选择“自定义”选项卡、“+ 新建”。有关创建自定义分类的详细信息，请参阅自定义分类文章。
为在上一步中创建的自定义分类创建分类规则。转到“数据映射”>“注释管理”>“分类规则”。在此处，你可以为上一步创建的自定义分类名称创建分类规则。

自定义分类

仅在可用系统分类不满足需求时才创建自定义分类。

对于自定义分类的名称，最好使用命名空间约定（例如 <company name>.<business unit>.<custom classification name>）。

例如，对于虚构公司 Contoso 的自定义 EMPLOYEE_ID 分类，自定义分类名称将为 CONTOSO.HR.EMPLOYEE_ID，而且该易记名称作为 HR.EMPLOYEE ID 存储在系统中。

为自定义分类创建和配置分类规则时，请执行下列操作：

选择要为其创建分类规则的适当分类名称。
Microsoft Purview 数据映射支持以下两种用于创建自定义分类规则的方法：
- 如果可以使用正则表达式模式一致地表达数据元素，或可以使用数据文件生成模式，请使用正则表达式 (regex) 方法。确保示例数据可反映总体。
- 只有当字典文件中的值列表表示要分类的数据的所有可能值并且预期符合给定数据集（同时考虑未来值）时，才使用字典方法。
使用正则表达式方法：
- 配置要分类的数据的正则表达式模式。确保正则表达式模式足够通用，以符合要分类的数据要求。
- Microsoft Purview 还提供了一项功能来生成建议的正则表达式模式。上传示例数据文件后，选择某个建议的模式，然后选择“添加到模式”以使用建议的数据和列模式。可以修改建议的模式，也可以键入自己的模式，而无需上传文件。
- 还可以为要分类的列配置列名模式，以最大限度减少假正。
- 配置与数据模式匹配的数据可接受的最小匹配阈值参数，以便应用分类。阈值应介于 1 和 100 之间。建议将值至少 60% 作为阈值，以免误报。不过，可以根据具体的分类情况进行必要的配置。例如，如果要检测数据中的任何值并对其应用分类（如果它与模式匹配），则阈值可能低至 1%。
- 如果将多个数据模式添加到分类规则，则将自动禁用设置最低匹配规则的选项。
- 使用测试分类规则并使用示例数据进行测试，以验证分类规则是否按预期工作。确保在示例数据中（例如 .csv 文件中的数据）至少存在三列，包括要应用分类的列。如果测试成功，你应该会看到列上的分类标签，如下图所示：
使用字典方法：
- 如果可能值的字典列表可用，你可以使用字典方法来拟合枚举数据。
- 此方法支持 .csv 和 .tsv 文件，文件大小限制为 30 MB。

自定义分类原型

“阈值”参数在正则表达式中的工作原理

请考虑下图中的示例源数据。其中有五列，自定义分类规则应该应用于数据模式 N{Digit}{Digit}{Digit}AN 的 Sample_col1、Sample_col2 和 Sample_col3 列。
自定义分类名为 NDDDAN。
分类规则（数据模式的正则表达式）是 ^N[0-9]{3}AN$。
将为“^N[0-9]{3}AN$”模式计算阈值，如下图所示：

如果阈值为 55%，则仅对 Sample_col1 和 Sample_col2 列进行分类。 Sample_col3 不会进行分类，因为它不符合 55% 的阈值标准。

如何同时使用数据和列模式

对于给定的示例数据（其中列 B 和列 C 都具有类似的数据模式），可以基于数据模式“^P[0-9]{3}[A-Z]{2}$”对列 B 进行分类。
将列模式和数据模式一起用于确保仅对 Product ID 列进行分类。

备注

列模式会验证为数据模式的 AND 条件。
使用测试分类规则并使用示例数据进行测试，以验证分类规则是否按预期工作。

如何使用多列模式

如果要针对同一分类规则将多个列模式分类，请使用竖线 (|) 字符分隔的列名。例如，对于 Product ID、Product_ID、ProductID 列等，请编写列模式，如下图所示：

有关详细信息，请参阅 regex 替换构造。

分类注意事项

在定义分类时，请谨记以下注意事项：

若要确定在扫描之前需要对资产应用哪些分类，请考虑如何使用分类。不必要的分类标签可能看起来具有干扰性，甚至会误导数据使用者。可将分类用于以下目的：
- 描述所扫描的数据资产或架构中存在的数据的性质。换言之，分类应该使客户在搜索目录时能够从分类标签中识别数据资产或模式的内容。
- 设置优先级并制定计划来实现组织的安全性和合规性需求。
- 描述数据准备过程中的阶段（原始区域、登陆区域等）并将分类分配给特定资产以标记过程中的阶段。
可通过在扫描规则中包含相关分类，在资产或列级别自动分配分类，也可在将元数据引入到 Microsoft Purview 数据映射后手动分配它们。
有关自动分配，请参阅 Microsoft Purview 数据映射支持的数据存储。
在扫描 Microsoft Purview 数据映射中的数据源之前，务必了解数据并为其配置适当的扫描规则集（例如，通过选择相关的系统分类、自定义分类或两者的组合），因为这可能会影响扫描性能。有关详细信息，请参阅 Microsoft Purview 数据映射中支持的分类。
Microsoft Purview 扫描程序会将数据采样规则应用于系统和自定义分类的深度扫描（取决于分类）。采样规则基于数据源类型。有关详细信息，请参阅 Microsoft Purview 中支持的数据源和文件类型中的“文件内采样”部分。

备注

非重复数据阈值：这是在扫描程序运行数据模式前需要在列中找到的非重复数据值的总数。非重复数据阈值与模式匹配无关，但它是模式匹配的先决条件。系统分类规则要求每列至少有 8 个不同的值，以便对它们分类。系统需要此值来确保每列都包含足够的数据，以便扫描程序可以对其进行精确分类。例如，不会对多行都包含值 1 的列进行分类。也不会对一行包含值而其余行包含 null 值的列进行分类。如果指定多种模式，此值会应用于每个模式。
采样规则也适用于资源集。有关详细信息，请参阅 Microsoft Purview 数据映射中支持的数据源和文件类型中的“资源集文件采样”部分。
无法使用自定义分类规则将自定义分类应用于文档类型资产。此类类型的分类只能手动应用。
自定义分类不包含在任何默认扫描规则中。因此，如果需要自动分配自定义分类，则必须部署并使用包含自定义分类的自定义扫描规则来运行扫描。
如果从 Microsoft Purview 治理门户手动应用分类，此类分类将保留在后续扫描中。
后续扫描不会从资产中删除任何分类（如果之前已检测到这些分类，即使分类规则不适用）。
对于加密的源数据资产，Microsoft Purview 仅选取文件名、完全限定的名称、结构化文件类型的架构详细信息和数据库表。若要使分类正常工作，请在运行扫描之前将加密数据解密。

连接、编码和成长

通过

扫描规则集

注释管理

自定义分类