在数据映射中自动对资产应用分类

在 Microsoft Purview 数据映射 中注册数据源后,下一步是扫描数据源。 扫描过程与数据源建立连接,捕获技术元数据,并使用 受支持的系统分类自定义分类规则自动对数据进行分类

例如,如果有一个名为 multiple.docx 的文件,并且其内容中包含国家/地区 ID 号,在扫描过程中,数据映射会将分类 欧盟国家/地区标识号 添加到文件资产的详细信息页。

这些 分类 有助于你和你的团队确定你在数据资产中拥有的数据类型。 例如:如果文件或表包含信用卡数字或地址。 然后,可以更轻松地搜索某些类型的信息,例如客户 ID,或者优先考虑敏感数据类型的安全性。

扫描期间,可以自动对文件和列资产应用分类。

在本文中,我们将讨论:

自动应用分类

注释

表资产不会自动分配分类,因为分类已分配给其列,但你可以 手动将分类应用于表资产

注册数据源后,可以通过运行扫描来自动对数据源的数据资产中的数据进行分类。

  1. 查看数据源的源文章“扫描”部分,确认已设置任何先决条件或身份验证,并准备好进行扫描。

  2. 在 Microsoft Purview 数据映射中搜索已注册的、包含你要分类的数据资产(文件和列)的源。

  3. 选择资源下的 “新建扫描 ”图标。

    Microsoft Purview 数据映射的屏幕截图,其中在已注册的源下选择了新建扫描按钮。

    小窍门

    如果未看到“新建扫描”按钮,则可能没有正确的权限。 若要运行扫描,至少需要对注册源的集合具有 数据源管理员权限

  4. 选择您的凭据并使用原始来源进行身份验证。 (有关使用源进行身份验证的详细信息,请参阅特定源源文章先决条件扫描部分。) 选择“继续”。

  5. 如有必要,请选择要扫描的源中的资产。 可以根据源扫描所有资产或文件夹、文件或表的子集。

  6. 选择您的扫描规则集。 你将看到可用扫描规则集的列表,可以选择一个,也可以使用顶部的“新建扫描规则集”按钮来选择创建新的 扫描规则集 。 扫描规则集将确定将比较哪些分类并将其应用于数据。 有关详细信息,请参阅 Microsoft Purview 如何对资产进行分类

    扫描菜单的“扫描规则集”页的屏幕截图,其中突出显示了新的扫描规则集和现有扫描规则集按钮。

    小窍门

    有关创建扫描规则集时可用的选项的详细信息,请从创建 扫描规则集的步骤 4 开始。

  7. 安排您的扫描。

  8. 保存并运行扫描。 扫描规则集中的适用分类将自动应用于扫描的资产。 扫描完成后,你将能够查看和管理它们。

查看分类详细信息

Microsoft Purview 捕获重要详细信息,例如应用分类的人员及其应用时间。 若要查看详细信息,请将鼠标悬停在分类上,显示分类详情卡片。 分类详细信息卡显示以下信息:

  • 分类名称 - 应用于资产或列的分类的名称。
  • 应用者 - 应用分类的人员。 可能的值为 scan 和用户名。
  • 应用时间 - 通过扫描或手动应用分类时的本地时间戳。
  • 分类类型 - 系统或自定义。

具有数据管理员角色的用户可以查看通过扫描自动应用的分类的更多详细信息。 这些详细信息包括扫描程序读取以对数据进行分类的样本计数,以及扫描程序找到的样本中的非重复数据计数。

重新扫描对现有分类的影响

分类标记的第一次应用是根据数据采样以及将这些样本与预定义的正则表达式模式或字典匹配自动进行的。 后续重新扫描可以保留、删除或增量添加分类标记,具体取决于几个因素:

  • 扫描运行不会删除手动应用的分类标记。

  • 扫描运行不会重新应用手动删除的分类标记。

  • 以后的扫描运行如果继续使用相同的扫描规则,则可以更新分类标记。

  • 对于扫描操作,可以根据下表中列出的条件保留或删除以前扫描中的分类标签:

    文件类型 文件大小 上一次扫描的分类标记将为:
    没有特定大小的文件类型(例如 SQL) 全部 保留
    .doc、.docm、.docx、.dot、.odp、.ods、.odt、.pdf、.pot、.pps、.ppsx、.ppt、.pptm、.pptx、.txt、.xlc、.xls、.xlsb、.xlsm、.xlsx、.xlt >20 MB 保留
    .doc、.docm、.docx、.dot、.odp、.ods、.odt、.pdf、.pot、.pps、.ppsx、.ppt、.pptm、.pptx、.txt、.xlc、.xls、.xlsb、.xlsm、.xlsx、.xlt <20 MB 已删除
    GZ >400 KB 保留
    广州 <400 KB 已删除
    没有扩展名或结构化文件类型的文件 > 1 MB 保留
    没有扩展名或结构化文件类型的文件 < 1 MB 已删除

Microsoft Purview 如何对资产进行分类

扫描数据源时,Microsoft Purview 会将资产中的数据与称为 扫描规则集的可能分类列表进行比较。

系统 扫描规则集 已可用于每个数据源,其中包含该数据源的每个当前可用的系统分类。 或者,可以 创建自定义扫描规则集 ,以创建针对数据集定制的分类列表。

如果数据仅限于特定类型的信息或区域,则为数据创建自定义规则集是一个好主意,因为将数据与较少的分类类型进行比较将加快扫描过程。

如果您已创建自定义分类和分类规则,则可以创建自定义规则集,以便在扫描期间自动应用您的自定义分类。

有关可用系统分类以及如何对数据进行分类的详细信息,请参阅 系统分类列表

后续步骤