本文概述了 Microsoft Purview 中的扫描和引入功能。 使用这些功能,你可以将 Microsoft Purview 帐户连接到源来填充数据映射和统一目录,以便通过 Microsoft Purview 开始浏览和管理数据。
- 扫描将从数据源捕获元数据并将其引入 Microsoft Purview。
- 引入过程中将处理两个来源的元数据,并将其存储在统一目录中。
- 数据源扫描 - 扫描的元数据将添加到 Microsoft Purview 数据映射。
- 世系连接 - 转换资源将有关其源、输出和活动的元数据添加到 Microsoft Purview 数据映射。
在 Microsoft Purview 帐户中注册数据源后,下一步是扫描数据源。 在扫描过程中会与数据源建立连接,并捕获技术元数据,例如名称、文件大小、列,等等。 它还提取结构化数据源的架构,并对架构应用分类。 扫描过程可以在触发后立即运行,也可以按计划定期运行,使你的 Microsoft Purview 帐户保持最新。
对于每个扫描,都可以应用自定义设置,以便仅扫描所需的信息,而不是扫描整个源。
默认情况下,Microsoft Purview 是安全的。 没有密码或机密直接存储在 Microsoft Purview 中,因此需要为源选择身份验证方法。 有多种可能的方法来验证你的 Microsoft Purview 帐户,但并非每个数据源都支持所有方法。
- 托管标识
- 服务主体
- SQL 身份验证
- Windows 身份验证
- 角色 ARN
- 委托身份验证
- 使用者密钥
- 帐户密钥或基本身份验证
尽可能首选托管身份作为身份验证方法,因为这无需存储和管理各个数据源的凭据。 这可以大大减少你和你的团队在扫描设置和解决身份验证问题方面花费的时间。 为 Microsoft Purview 帐户启用托管标识时,Microsoft Entra ID 中会创建一个与帐户的生命周期关联的标识。
扫描某个源时,可以选择扫描整个数据源,或选择仅扫描特定实体(文件夹/表)。 可用选项取决于所扫描的源,可以针对一次性扫描和计划的扫描进行定义。
例如,针对 Azure SQL 数据库创建和运行扫描时,可以选择要扫描的表,或选择整个数据库。
对于每个实体(文件夹/表),都有三种选择状态:完全选择、部分选择和未选择。 在下面的示例中,如果在文件夹层次结构中选择“部门 1”,则“部门 1”被视为完全选定。 “部门 1”的父实体(如“公司”和“示例”)被视为部分选定,因为同一父级下还有其他实体尚未选择,例如“部门 2”。对于具有不同选择状态的实体,UI 上将使用不同的图标。
运行扫描后,源系统中可能会添加新资产。 默认情况下,当您再次运行扫描时,如果完全或部分选择了某个父级,则该父级下的未来资产将被自动选择。 在上面的示例中,选择“部门 1”并运行扫描后,再次运行扫描时,将包括文件夹“Department 1”下或“公司”和“示例”下的任何新资产。
为用户引入了一个切换按钮,用于控制部分选择的父级下的新资产的自动包含行为。 该切换按钮默认处于关闭状态,即禁用部分选择的父级的自动包含行为。 在关闭该切换按钮的同一示例中,当你再次运行扫描时,将不包含部分选择的父级(例如“公司”和“示例”)下的任何新资产,未来的扫描只会包含“部门 1”下的新资产。
如果切换按钮处于打开状态,那么当你再次运行扫描时,如果某个父级被完全或部分选择,属于该父级下的新资产将会被自动选中。 包含行为与引入切换按钮之前的行为相同。
备注
- 切换按钮的可用性取决于数据源类型。 目前,它以公共预览版提供,包括 Azure Blob 存储、Azure Data Lake Storage Gen 1、Azure Data Lake Storage Gen 2、Azure 文件存储 和 Azure 专用 SQL 池 (以前是 SQL DW) 。
- 对于在切换按钮引入之前创建或计划的任何扫描,该切换按钮的状态设置为打开且无法更改。 对于在切换按钮引入之后创建或计划的任何扫描,在保存扫描后无法更改切换按钮的状态。 需要创建新的扫描才能更改切换按钮的状态。
- 关闭切换按钮后,对于存储类型的存储源(如 Azure Data Lake Storage Gen 2),扫描作业完成后,按源类型浏览体验可能需要长达 4 小时才能完全可用。
当切换按钮处于关闭状态时:
- 不会扫描部分选择的父级下的文件实体。
- 如果显式选择了父级下的所有现有实体,则父级被视为完全选择,并且在你再次运行扫描时,将包含父级下的所有新资产。
扫描规则集决定了针对源之一运行扫描时扫描将查找的信息的类型。 可用规则取决于要扫描的源的类型,但包括应扫描的文件类型以及需要的分类类型等项。
许多数据源类型已存在可用的系统扫描规则集,但是你也可以创建自己的扫描规则集来为组织定制扫描。
Microsoft Purview 允许您选择在您选定的特定时间进行每日、每周或每月扫描。 详细了解支持的计划选项。 每日或每周扫描可能适用于具有积极开发或经常更改的结构的数据源。 每月扫描更适用于不经常更改的数据源。 最佳做法是与你要扫描的源的管理员合作确定何时对源的计算需求较低。
Microsoft Purview 目录只有在执行扫描时才能了解数据存储的状态。 为了解文件、表或容器是否已删除,它会将上次扫描输出与当前扫描输出进行比较。 例如,假设上次扫描 Azure Data Lake Storage Gen2 帐户时,包含一个名为 folder1 的文件夹。 再次扫描同一帐户时,folder1 缺失。 因此,目录假定该文件夹已被删除。
提示
由于已删除的文件的检测方式,可能需要多次成功完成扫描才能检测并解决已删除的资产。 如果统一目录不会注册删除操作来支持有范围的扫描,请多次尝试完整扫描来解决问题。
检测缺失文件的逻辑适用于同一个用户和不同用户的多次扫描。 例如,假设某个用户对 Data Lake Storage Gen2 数据存储上的文件夹 A、B 和 C 运行一次扫描。稍后,同一帐户中的不同用户对同一数据存储的 C、D 和 E 文件夹运行一次不同的一次性扫描。 由于文件夹 C 被扫描了两次,因此目录会检查它是否可能被删除。 但是,文件夹 A、B、D 和 E 仅扫描过一次,系统不会检查它们是否有已删除的资产。
为了将已删除的文件从目录中移除,请务必定期运行扫描。 扫描间隔很重要,因为在运行另一次扫描之前,目录无法检测到已删除的资产。 因此,如果你每月对特定存储运行一次扫描,则在运行下一次扫描之前,目录无法检测该存储中的任何已删除的数据资产。
枚举大数据存储(如 Data Lake Storage Gen2)时,有多种方法(包括枚举错误和丢弃的事件)丢失信息。 特定扫描可能会错过已创建或已删除的文件。 因此,除非目录确定某个文件已被删除,否则不会从目录中删除这个文件。 这一策略的意义是,如果某个文件在扫描的数据存储中不存在,但仍存在于目录中,则可能会出现错误。 在某些情况下,可能需要对数据存储进行两次或三次扫描才能捕获某些已删除的资产。
备注
- 标记为删除的资产将在成功扫描后被删除。 已删除的资产在被处理和删除之前,可能会继续在你的目录中显示一段时间。
- 以下源不支持删除检测:Azure Databricks、Erwin、SAP BW。 从数据源中删除对象后,后续扫描不会自动删除 Microsoft Purview 中的相应资产。
引入是负责在数据映射中填充元数据的过程,这些元数据是通过各种过程收集的。
然后,扫描过程识别出的技术元数据或分类将发送到引入过程。 引入会分析来自扫描的输入,应用资源集模式,填充可用的数据世系信息,然后自动加载数据映射。 只有在数据摄入完成后,才能发现或管理资产/架构。 因此,如果扫描已完成,但尚未在数据映射或目录中看到资产,则需要等待引入过程完成。
Azure 数据工厂和 Azure Synapse 等资源可以连接到 Microsoft Purview,以将数据源和世系信息引入 Microsoft Purview 数据映射。 例如,当复制管道在已连接到 Microsoft Purview 的 Azure 数据工厂中运行时,有关输入源、活动和输出源的元数据将引入到 Microsoft Purview 中,而信息将添加到数据映射中。
如果已通过扫描将数据源添加到数据映射,则有关活动的世系信息将添加到现有源中。 如果数据源尚未添加到数据映射,则世系引入过程会将其及其世系信息添加到根集合。
有关更多信息或扫描资源的具体说明,请点击以下链接。
- 若要了解资源集,请参阅我们的资源集文章。
- 如何治理 Azure SQL数据库