创建扫描规则集

在 Microsoft Purview 数据映射中,可以创建扫描规则集,以自定义组织中的数据源扫描

扫描规则集是一个容器,用于将一组扫描规则组合在一起,以便轻松地将这些扫描规则与扫描相关联。 例如,可以为每种数据源类型创建一个默认扫描规则集,然后对公司内的所有扫描中默认使用这些扫描规则集。 你可能还希望具有适当权限的用户也能根据业务需求创建具有不同配置的其他扫描规则集。

创建扫描规则集的步骤

要创建扫描规则集,请执行以下操作:

  1. 从 Microsoft Purview 门户中选择“数据映射”解决方案

  2. 在“源管理”部分下,选择“扫描规则集”,然后选择“新建”

  3. 在“新建扫描规则集”页上,从“源类型”下拉列表中选择目录扫描程序支持的数据源。 可以为要扫描的每种类型的数据源创建扫描规则集。

  4. 给扫描规则集一个“名称”。 最大长度为 63 个字符,不允许使用空格。 (可选)输入说明。 最大长度为 256 个字符。

    显示“扫描规则集”页的屏幕截图。

  5. 选择一个域。

    重要

    只能在创建扫描规则集的域中使用扫描规则集。

  6. 选择“继续”。

    此时将显示“选择文件类型”页。 请注意,此页上的文件类型选项会根据在上一页中选择的数据源类型而有所不同。 默认启用所有文件类型。

    显示“选择文件类型”页的屏幕快照。

    通过此页面上的“文档文件类型”选项,可以包括或排除以下 Office 文件类型:.doc、.docm、.docx、.dot、.odp、.ods、.odt、.pdf、.pot、.pps、.ppsx、.ppt、.pptm、.pptx、.xlc、.xls、.xlsb、.xlsm、.xlsx 和 .xlt。

  7. 通过选中或清除复选框来启用或禁用架构和分类的文件类型。 如果选择“数据湖”类型数据源(例如,Azure Data Lake Storage Gen2 或 Azure Blob),请启用提取架构并进行分类的文件类型。

    重要

    取消选择文件类型并不意味着不会进行引入。 文件的信息仍将引入,但不会提取其架构和分类。

  8. 对于某些数据源类型,还可以创建自定义文件类型

  9. 选择“继续”。

    此时将显示“选择分类规则”页。 该页面显示所选的“系统规则”和“自定义规则”,以及所选分类规则的总数。 默认选中所有“系统规则”复选框

  10. 对于要包括或排除的规则,可以按类别全局选中或清除“系统规则”分类规则复选框。

    显示“选择分类规则”页的屏幕截图。

  11. 可以展开类别节点,并选中或清除各个复选框。 例如,如果“Argentina.DNI 编号”的规则具有较高的误报率,则可以清除该特定复选框。

    显示如何选择系统规则的屏幕截图。

  12. 选择“创建”完成创建扫描规则集。

创建自定义文件类型

Microsoft Purview 支持添加自定义扩展,并支持在扫描规则集中定义自定义列分隔符。

要创建自定义文件类型,请执行以下操作:

  1. 执行创建扫描规则集的步骤中的步骤 1 到 5,或者编辑现有的扫描规则集。

  2. 在“选择文件类型”页上,选择“新建文件类型”以创建新的自定义文件类型。

    显示如何从“选择文件类型”页中选择“新建文件类型”的屏幕截图。

  3. 输入“文件扩展名”和可选的“描述”。

    显示“新建自定义文件类型”页的屏幕截图。

  4. 对“以下位置的文件内容”选择以下一项,以指定文件中文件内容的类型:

    • 选择“自定义分隔符”,然后输入自己的“自定义分隔符”(仅单个字符)。

    • 选择“系统文件类型”,然后从“系统文件类型”下拉列表中选择系统文件类型(例如 XML)。

  5. 选择“创建”保存自定义文件。

    系统返回到“选择文件类型”页,并作为新磁贴来插入新的自定义文件类型。

    显示“选择文件类型”页上的新自定义文件类型磁贴的屏幕快照。

  6. 如果要更改或删除文件类型,请在新文件类型磁贴中选择“编辑”。

  7. 选择“继续”以完成扫描规则集的配置。

忽略模式

Microsoft Purview 支持定义正则表达式 (regex),以便在扫描过程中排除资产。 在扫描过程中,Microsoft Purview 会将资产的 URL 与这些正则表达式进行比较。 扫描时,将忽略与提到的任何正则表达式匹配的所有资产。

“忽略模式”边栏选项卡会预先填充一个用于 Spark 事务文件的正则表达式。 如果不需要预先存在的模式,可以将其删除。 最多可以定义 10 个忽略模式。

显示具有四个已定义正则表达式的“忽略模式”边栏选项卡的屏幕截图。第一个是预先填充的 Spark 事务正则表达式,第二个是 \\.txt$,第三个是 \\.csv$,最后一个是 .folderB/.*。

在上述示例中:

  • 在扫描过程中,正则表达式 2 和 3 将忽略以 .txt 和 .csv 结尾的所有文件。
  • 在扫描过程中,正则表达式 4 将忽略 /folderB/ 及其所有内容。

下面是可用于忽略模式的更多提示:

  • 在处理正则表达式时,Microsoft Purview 默认会将 $ 添加到正则表达式。

  • 理解扫描代理将与正则表达式进行比较的 URL 的一种好方法是,浏览 Microsoft Purview 数据目录,查找将来要忽略的资产,并在“概述”选项卡中查看其完全限定的名称 (FQN)。

    显示资产的“概述”选项卡上的完全限定的名称的屏幕截图。

系统扫描规则集

系统扫描规则集是由 Microsoft 定义的扫描规则集,将为每个 Microsoft Purview 目录自动创建。 每个系统扫描规则集均与特定的数据源类型相关联。 创建扫描时,可以将其与系统扫描规则集相关联。 每次 Microsoft 对这些系统规则集进行更新时,用户可以在目录中更新它们,并将更新应用于所有关联的扫描。

  1. 要查看系统扫描规则集的列表,请在“管理中心”中选择“扫描规则集”,然后选择“系统”选项卡。

    显示系统扫描规则集列表的屏幕截图。

  2. 每个系统扫描规则集都有一个“名称”、“源类型”和“版本”。 如果在“版本”列中选择扫描规则集的版本号,则会看到与当前版本和先前版本(如果有)关联的规则。

    显示系统扫描规则集页的屏幕截图。

  3. 如果更新适用于系统扫描规则集,则可以在“版本”列中选择“更新”。 在系统扫描规则页中,从“选择要更新的新版本”下拉列表中选择一个版本。 页面提供与新版本和当前版本关联的系统分类规则列表。

    显示如何更改系统扫描规则集的版本的屏幕截图。

将扫描与系统扫描规则集相关联

创建扫描时,可以将其与系统扫描规则集相关联,如下所示:

  1. 在“选择扫描规则集”页上,选择系统扫描规则集。

    显示如何为扫描选择系统扫描规则集的屏幕截图。

  2. 选择“继续”,然后选择“保存并运行”。