Microsoft Purview 数据映射支持自动扫描本地、多云和软件即服务, (SaaS) 数据源。
运行扫描时,该过程开始从已注册的数据源引入元数据。 在扫描和策展过程结束时,你将获得包括技术元数据的特选元数据。 此元数据可以包括数据资产名称,例如表名或文件名、文件大小、列和数据世系。 对于结构化数据源,还会捕获架构详细信息。 关系数据库管理系统就是此类源的一个示例。
管理过程根据您配置的扫描规则集对架构属性应用自动分类标签。
重要
如果有任何 Azure 策略 阻止对存储帐户的更新**,这会导致Microsoft Purview 扫描过程出错。
为什么需要最佳做法来管理数据源?
最佳做法可帮助你:
- 优化成本。
- 打造卓越运营。
- 提高安全合规性。
- 提高性能效率。
注册源并建立连接
以下设计注意事项和建议可帮助你注册源并建立连接。
设计注意事项
- 使用集合创建符合组织战略的层次结构,例如地理位置、业务功能或数据源。 层次结构定义要注册和扫描的数据源。
- 根据设计,不能在同一个 Microsoft Purview 帐户中多次注册数据源。 此体系结构有助于避免向同一数据源分配不同访问控制的风险。
设计建议
如果多个团队使用同一数据源的元数据,请在父集合中注册和管理数据源。 然后,在每个子集合下创建相应的扫描。 这样,相关资产会显示在每个子集合下。 地图视图在虚线框中对源进行分组,不包含父级。 没有箭头将它们链接到父级。
如果需要在云中注册多个源(例如 Azure 订阅或资源组),请使用 Azure 多个 选项。 有关详细信息,请参阅以下文档:
注册数据源后,可以多次扫描同一个源。 不同的团队或业务部门可能以不同的方式使用同一个源。
有关如何定义用于注册数据源的层次结构的详细信息,请参阅 集合体系结构的最佳做法。
扫描
以下设计注意事项和建议根据扫描过程中涉及的关键步骤进行组织。
设计注意事项
- 注册数据源后,设置扫描以管理自动化且安全的元数据扫描和策展。
- 扫描设置包括为每个扫描频率的每个数据源唯一配置扫描名称、扫描范围、集成运行时、扫描触发器频率、扫描规则集和资源集。
- 在创建任何凭据之前,请考虑数据源类型和网络要求。 此信息可帮助你确定方案所需的身份验证方法和集成运行时。
设计建议
在相关 集合中注册源后,在设置扫描时计划并遵循此示例中显示的顺序。 此过程顺序有助于避免意外成本和返工。
从系统内置分类规则中确定分类要求。 或者根据需要创建特定的自定义分类规则。 它们基于特定的行业、业务或区域要求,这些要求是现可用的:
- 请参阅 分类最佳做法。
- 请参阅如何 创建自定义分类和分类规则。
在配置扫描之前创建扫描规则集 。 创建扫描规则集时,请确保以下几点:
验证系统默认扫描规则集是否足以满足要扫描的数据源的需求。 否则,请定义自定义扫描规则集。
自定义扫描规则集可以包括系统默认规则和自定义规则,因此请清除那些与要扫描的数据资产无关的选项。
如有必要,请创建自定义规则集以排除不需要的分类标签。 例如,系统规则集包含地球的通用政府代码模式,而不仅仅是美国。 你的数据可能与某种其他类型的模式匹配,例如“比利时驾驶执照号码”。
将自定义分类规则限制为 最重要 且 相关的 标签,以避免混乱。 你不希望向资产标记太多标签。
如果修改自定义分类或扫描规则集,则会触发完全扫描。 适当配置分类和扫描规则集,以避免返工和成本高昂的完整扫描。
注释
扫描存储帐户时,Microsoft Purview 使用一组定义的模式来确定一组资产是否构成资源集。 可以使用资源集模式规则来自定义或覆盖 Microsoft Purview 检测哪些资产被分组为资源集的方式。 这些规则还确定资产在目录中的显示方式。 有关详细信息,请参阅 创建资源集模式规则。 此功能具有成本注意事项。 有关信息,请参阅 Microsoft Purview 定价站点。
为已注册的数据源设置扫描。 - 扫描名称:默认情况下,Microsoft Purview 使用命名约定 SCAN-[A-Z][a-z][a-z][a-z],这在尝试识别已运行的扫描时没有帮助。 使用有意义的命名约定。 例如,可以将扫描 环境-source-frequency-time 命名为 DEVODS-Daily-0200。 此名称表示 0200 小时的每日扫描。
身份验证:Microsoft Purview 提供各种用于扫描数据源的身份验证方法,具体取决于源的类型。 它可以是 Azure 云、本地或非Microsoft源。 按照以下首选项顺序对身份验证方法遵循最低特权原则:
- Microsoft Purview MSI - 托管服务标识 (,例如,对于Azure Data Lake Storage Gen2源)
- 用户分配的管理标识
- 服务主体
- 例如,本地或Azure SQL源的 SQL 身份验证 ()
- 帐户密钥或基本身份验证 (,例如,对于 SAP S/4HANA 源)
有关详细信息,请参阅 管理凭据作指南。
注释
如果为存储帐户启用防火墙,则必须在设置扫描时使用托管标识身份验证方法。 设置新凭据时,凭据名称只能包含 字母、数字、下划线和连字符。
集成运行时
- 有关详细信息,请参阅 网络体系结构最佳做法。
- 如果删除自承载集成运行时 (SHIR) ,则依赖于它的任何正在进行的扫描都失败。
- 使用 SHIR 时,请确保内存足以用于要扫描的数据源。 例如,使用 SHIR 扫描 SAP 源时,如果看到“内存不足错误”:
- 确保 SHIR 计算机具有足够的内存。 建议的量为 128 GB。
- 在扫描设置中,将可用的最大内存设置为一些适当的值,例如 100。
范围扫描
- 设置扫描范围时,请仅选择在粒度级别或父级别相关的资产。 这种做法可确保扫描成本达到最佳且性能高效。 如果已完全或部分检查父级,则会自动选择某个父级下的所有未来资产。
- 某些数据源的一些示例:
- 对于Azure SQL数据库或Data Lake Storage Gen2,可以将扫描范围限定为数据源的特定部分。 选择列表中的相应项,例如文件夹、子文件夹、集合或架构。
- 为整个 AWS 帐户创建扫描时,可以选择要扫描的特定存储桶。 为特定 AWS S3 存储桶创建扫描时,可以选择要扫描的特定文件夹。
- 对于 Erwin,可以通过提供以分号分隔的 Erwin 模型定位符字符串列表来限定扫描范围。
- 对于 Power BI 租户,只能指定是包含还是排除个人工作区。
- 通常,基于通配符 (使用 忽略模式 ,例如,对于数据湖,) 排除临时、配置文件、RDBMS 系统表或备份或 STG 表。
- 扫描文档或非结构化数据时,请避免扫描大量此类文档。 扫描处理此类文档的前 20 MB,并可能导致更长的扫描持续时间。
扫描规则集
- 选择扫描规则集时,请确保配置之前创建的相关系统或自定义扫描规则集。 - 可以创建自定义文件类型并相应地填写详细信息。 目前,Microsoft Purview 仅支持自定义分隔符中的一个字符。 如果在实际数据中使用自定义分隔符(如 ~),则需要创建新的扫描规则集。
扫描类型和计划
- 可以将扫描过程配置为运行完整或增量扫描。
- 在非业务或非高峰时段运行扫描,以避免源上出现任何处理过载。
- 初始扫描是完全扫描,每次后续扫描都是增量扫描。 可以将后续扫描计划为定期增量扫描。 详细了解支持的计划选项。
- 扫描频率应与数据源或业务要求的更改管理计划保持一致。 例如:
- 如果源结构可能每周发生一次更改,则扫描频率应同步。更改包括已添加、修改或删除的资产中的新资产或字段。
- 如果分类或敏感度标签需要每周更新一次(可能是出于法规原因),则扫描频率应为每周一次。 - 如果每周在源数据湖中添加分区文件,则可以计划每月扫描。 无需计划每周扫描,因为元数据没有更改。 此建议假定没有新的分类方案。
- 扫描可以运行的最大持续时间为 7 天,可能是由于内存问题。 此时间段不包括引入过程。 如果 7 天后未更新进度,扫描将标记为“失败”。 引入 (到目录) 过程目前没有任何此类限制。
取消扫描
- 目前,仅当扫描状态在触发扫描后从“已排队”转换为“正在进行”状态时,才能取消或暂停扫描。
- 不支持取消单个子扫描。
需要注意的要点
- 如果在扫描运行后从源系统中删除字段、列、表或文件,Microsoft Purview 只会在下一次计划的完全扫描或增量扫描后显示删除作。
- 可以通过在资产名称下选择“删除”,从 Microsoft Purview 目录中 删除 资产。 此作不会删除源中的 对象。 如果在同一源上运行完全扫描,扫描将重新引入目录中的对象。 如果运行增量扫描,除非在源中修改了对象,否则不会选取已删除的资产。 例如,如果在表中添加或删除列。
- 若要了解通过经典 Microsoft Purview 治理门户 手动 编辑数据资产或基础架构后后续扫描的行为,请参阅 经典目录资产详细信息。
- 有关详细信息,请参阅 如何查看、编辑和删除资产。