Microsoft Purview 扫描最佳做法
Microsoft Purview 治理解决方案支持自动扫描本地、多云和软件即服务 (SaaS) 数据源。
运行扫描会调用从注册数据源中引入元数据的过程。 在扫描和管护过程结束时管护的元数据包括技术元数据。 这些元数据可能包括数据资产名称(例如表名或文件名)、文件大小、列和数据世系。 对于结构化数据源,还会捕获架构详细信息。 关系数据库管理系统就是此类源的一个示例。
管护过程根据配置的扫描规则集对架构属性应用自动分类标签。 如果 Microsoft Purview 帐户已连接到 Microsoft Purview 符合性门户,则会应用敏感度标签。
重要
如果有任何 Azure 策略在阻止更新存储帐户,将导致 Microsoft Purview 的扫描过程出错。 请按照 Microsoft Purview 异常标记指南为 Microsoft Purview 帐户创建异常。
为何需要采用最佳做法来管理数据源?
采用最佳做法可以:
- 优化成本。
- 打造卓越运营。
- 改善安全合规性。
- 获得性能效益。
注册源并建立连接
以下设计注意事项和建议可帮助你注册源并建立连接。
设计注意事项
- 使用集合来创建与组织策略中的地理位置,业务职能或数据源等要素相符的层次结构。 层次结构定义要注册和扫描的数据源。
- 根据设计,不能在同一个 Microsoft Purview 帐户中多次注册数据源。 这种体系结构有助于避免将不同访问控制分配到同一数据源所带来的风险。
设计建议
如果多个团队使用同一个数据源的元数据,你可以在父集合中注册和管理数据源。 然后,在每个子集合下创建相应的扫描。 这样,相关的资产就会显示在每个子集合下。 无父级的源将分组到映射视图的虚线框中。 没有箭头将它们链接到父级。
如果需要在云中注册多个源(例如 Azure 订阅或资源组),请使用“Azure 多源”选项。 有关详细信息,请参阅以下文档:
注册数据源后,可以多次扫描同一个源,以防不同的团队或业务单位以不同的方式使用同一个源。
有关如何定义用于注册数据源的层次结构的详细信息,请参阅有关集合体系结构的最佳做法。
扫描
以下设计注意事项和建议是根据扫描过程中涉及的关键步骤整理的。
设计注意事项
- 注册数据源后,请设置扫描,以管理自动且安全的元数据扫描和管护。
- 扫描设置包括根据扫描频率针对每个数据源配置独特的扫描名称、扫描范围、集成运行时、扫描触发频率、扫描规则集和资源集。
- 在创建任何凭据之前,请考虑数据源类型和网络要求。 此信息有助于确定方案需要哪种身份验证方法和集成运行时。
设计建议
在相关集合中注册源后,请在设置扫描时规划并遵循以下顺序。 此过程顺序有助于避免意外的成本和返工。
从系统内置分类规则中确定分类要求。 或者,在必要时可以创建特定的自定义分类规则。 请根据特定的行业、业务或区域要求(未现成提供)来创建这种规则:
- 请参阅分类最佳做法。
- 了解如何创建自定义分类和分类规则。
在配置扫描之前创建扫描规则集。
创建扫描规则集时,请确保做到以下几点:
验证系统默认扫描规则集对于要扫描的数据源是否足够。 如果不足够,请定义自定义的扫描规则集。
自定义扫描规则集可以包含系统默认项和自定义项,因此请清除与所要扫描的数据资产无关的那些选项。
如有必要,请创建自定义规则集以排除不需要的分类标签。 例如,系统规则集包含全球(而不仅仅是美国)通用的政府代码模式。 你的数据可能与其他某种类型(例如“比利时驾照编号”)的模式相匹配。
将自定义分类规则限制为最重要和最相关的标签,以避免混乱。 最好不要为资产设置过多的标签。
如果修改自定义分类或扫描规则集,将会触发完整扫描。 相应地配置分类和扫描规则集,以避免返工和成本不菲的完整扫描。
为注册的数据源设置扫描。
扫描名称:默认情况下,Microsoft Purview 使用命名约定 SCAN-[A-Z][a-z][a-z],这在你尝试识别运行的扫描时没有帮助。 请务必使用有意义的命名约定。 例如,可将扫描 environment-source-frequency-time 命名为 DEVODS-Daily-0200。 此名称表示在每天的 02:00 扫描。
身份验证:Microsoft Purview 根据源的类型提供用于扫描数据源的各种身份验证方法。 源的类型可以是 Azure 云、本地或第三方源。 按照以下优先顺序,遵循身份验证方法的最低特权原则:
- Microsoft Purview MSI - 托管服务标识(例如,用于 Azure Data Lake Storage Gen2 源)
- 用户分配的托管标识
- 服务主体
- SQL 身份验证(例如,用于本地或 Azure SQL 源)
- 帐户密钥或基本身份验证(例如,用于 SAP S/4HANA 源)
有关详细信息,请参阅管理凭据的操作指南。
备注
如果为存储帐户启用了防火墙,则必须在设置扫描时使用托管标识身份验证方法。 设置新凭据时,凭据名称只能包含字母、数字、下划线和连字符。
集成运行时
- 有关详细信息,请参阅网络体系结构最佳做法。
- 如果删除了自承载集成运行时 (SHIR),任何依赖于它的后续扫描都会失败。
- 使用 SHIR 时,请确保有足够的内存可用于扫描的数据源。 例如,使用 SHIR 扫描 SAP 源时,如果看到“内存不足错误”:
- 请确保 SHIR 计算机有足够的内存。 建议至少有 128 GB 的内存量。
- 在扫描设置中,将最大可用内存设置为某个适当值(例如 100)。
范围扫描
设置扫描范围时,请仅选择在粒度级别或父级别相关的资产。 这种做法可以确保扫描成本最佳且性能高效。 如果完全或部分选中某个父项,将自动选择该父项下的所有未来资产。
某些数据源的部分示例:
- 对于 Azure SQL 数据库或 Data Lake Storage Gen2,可以将扫描范围限定于数据源的特定部分。 在列表中选择相应的项,例如文件夹、子文件夹、集合或架构。
- 对于 Google Big 查询,可以通过分号分隔值指定要导出的特定数据集列表。
- 为整个 AWS 帐户创建扫描时,可以选择要扫描的特定 Bucket。 为特定 AWS S3 Bucket 创建扫描时,可以选择要扫描的特定文件夹。
- 对于 Erwin,可以通过提供 Erwin 模型定位符字符串的分号分隔列表来限定扫描范围。
- 对于 Power BI 租户,只能指定是要包含还是排除个人工作区。
一般情况下,请使用基于通配符(例如,对于数据湖)的“忽略模式”(如果支持),以排除临时文件、配置文件、RDBMS 系统表或备份/STG 表。
扫描文档或非结构化数据时,请避免扫描大量此类文档。 扫描会处理此类文档的前 20 MB,并可能导致扫描持续时间变得很长。
扫描规则集
- 选择扫描规则集时,请确保配置先前创建的相关系统或自定义扫描规则集。
- 可以创建自定义文件类型,并相应地填写详细信息。 Microsoft Purview 目前仅支持在自定义分隔符中使用一个字符。 如果在实际数据中使用自定义分隔符(例如 ~),则需要创建新的扫描规则集。
扫描类型和计划
- 扫描过程可以配置为运行完整扫描或增量扫描。
- 在下班时间或非高峰期运行扫描,以避免源上发生任何处理过载。
- 初始扫描是完整扫描,每次后续扫描是增量扫描。 后续扫描可以计划为定期增量扫描。 详细了解支持的计划选项。
- 扫描频率应与数据源或业务要求的变更管理计划相一致。 例如:
- 如果源结构可能每周发生更改,则扫描频率应该同步。更改包括添加新资产,或者在资产中修改或删除字段。
- 如果分类或敏感度标签预计每周会更新(可能由于监管原因),则扫描频率应为每周一次。 例如,如果每周在源数据湖中添加分区文件,则可以计划每月扫描。 无需计划每周扫描,因为元数据并未更改。 此项建议假设没有新的分类方案。
- 扫描可运行的最长持续时间为 7 天(可能是由于内存问题)。 此时间段不包括引入过程。 如果 7 天后进度未更新,则扫描将标记为失败。 引入(到目录中)过程目前没有任何此类限制。
取消扫描
- 目前,只有在触发扫描后扫描状态从“已排队”转为“正在进行”状态时,才能取消或暂停扫描。
- 不支持取消单个子扫描。
需要注意的要点:
- 如果在执行扫描后从源系统中删除了字段或列、表或者文件,只会在完成下一次计划的完整或增量扫描之后,此状态才会反映在 Microsoft Purview 中(已删除)。
- 可以使用资产名称下的“删除”图标从 Microsoft Purview 目录中删除资产。 此操作不会删除源中的对象。 如果对同一个源运行完整扫描,则会在目录中重新引入资产。 如果改为运行增量扫描,则除非在源处修改对象,否则不会选取已删除的资产。 例如,在表中添加或删除了列。
- 若要了解在通过 Microsoft Purview 治理门户手动编辑数据资产或基础架构后的后续扫描行为,请参阅目录资产详细信息。
- 有关详细信息,请参阅有关如何查看、编辑和删除资产的教程。