数据映射中的扫描和引入

本文概述了 Microsoft Purview 数据映射 中的扫描和引入功能。 这些功能将 Microsoft Purview 帐户连接到源,以填充数据映射和统一目录以便你可以通过 Microsoft Purview 开始浏览和管理数据。

  • 扫描将从数据源捕获元数据并将其引入 Microsoft Purview
  • 引入过程中将处理两个来源的元数据,并将其存储在统一目录中。
    • 数据源扫描 - 扫描的元数据将添加到数据映射。
    • 世系连接 - 转换资源将有关其源、输出和活动的元数据添加到数据映射。

扫描

在 Microsoft Purview 帐户中 注册 数据源后,请扫描数据源。 扫描过程连接到数据源,并捕获技术元数据,如名称、文件大小、列等。 它还提取结构化数据源的架构,并对架构应用分类。 可以触发扫描进程立即运行,或计划其定期运行,使 Microsoft Purview 帐户保持最新状态。

对于每次扫描,可以自定义过程,以便仅扫描所需的信息,而不是整个源。

选择用于扫描的身份验证方法

默认情况下,Microsoft Purview 是安全的。 它不直接存储密码或机密,因此需要为源选择身份验证方法。 可以通过多种方式对 Microsoft Purview 帐户进行身份验证,但并非每个数据源都支持所有方法。

  • 托管身份
  • 服务主体
  • SQL 身份验证
  • Windows 身份验证
  • 角色 ARN
  • 委托身份验证
  • 使用者密钥
  • 帐户密钥或基本身份验证

尽可能使用托管标识,因为它无需存储和管理单个数据源的凭据。 此方法可以大大减少你和你的团队在设置和排查扫描身份验证问题时花费的时间。 为 Microsoft Purview 帐户启用托管标识时,标识在 Microsoft Entra ID (Entra ID) 中创建,并绑定到帐户的生命周期。

限定扫描范围

扫描源时,可以扫描整个数据源,也可以仅选择要扫描的特定实体 (文件夹或表) 。 可用选项取决于要扫描的源。 可以为一次性扫描和计划扫描定义这些选项。

例如,针对 Azure SQL 数据库创建和运行扫描时,可以选择要扫描的表,或选择整个数据库。

对于每个实体 (文件夹或表) ,存在三种选择状态:完全选择、部分选择和未选择。 在以下示例中,如果在文件夹层次结构中选择“ 部门 1 ”,则 “部门 1 ”被视为完全选定。 部门 1 的父实体(即公司和示例)被视为部分选定,因为同一父 (下的其他实体(例如,部门 2) 未选择)。 对于具有不同选择状态的实体,UI 上使用不同的图标。

显示扫描页范围的屏幕截图。

运行扫描后,很可能会在源系统中添加新资产。 默认情况下,如果在再次运行扫描时完全或部分选择了父级,则会自动选择某个父级下的未来资产。 在前面的示例中,选择 “部门 1 ”并运行扫描后,再次运行扫描时,将包含文件夹 “Department 1 ”下或 “公司示例 ”下的所有新资产。

如下图所示,切换按钮允许用户控制部分选定父级下新资产的自动包含。 默认情况下,开关处于关闭状态,并禁用部分所选父级的自动包含行为。 关闭切换开关后,再次运行扫描时,将不包括部分选定的父级(如 Companyexample )下的任何新资产;将来的扫描中仅包括 部门 1 下的新资产。

截图显示了切换按钮关闭状态时您扫描页面的范围。

如果切换开关处于打开状态,则当你再次运行扫描时,如果父级已完全或部分选择,则会自动选择父级下的新资产。 包含行为与引入切换之前相同。

显示扫描页面范围的屏幕截图,切换按钮已开启。

注释

  • 切换按钮的可用性取决于数据源类型。 目前,它以公共预览版提供,包括 Azure Blob 存储、Azure Data Lake Storage Gen 1、Azure Data Lake Storage Gen 2、Azure 文件存储 和 Azure 专用 SQL 池 (以前是 SQL DW) 。
  • 对于在引入切换之前创建或计划的任何扫描,切换状态设置为 “打开 ”,无法更改。 对于在引入切换后创建或计划的任何扫描,在保存扫描后无法更改切换状态。 需要创建新的扫描才能更改切换按钮的状态。

已知的限制

关闭切换开关时:

  • 不会扫描部分选定父级下的文件实体。
  • 如果显式选择了父级下的所有现有实体,则被视为完全选定父实体,并且再次运行扫描时,将包含父级下的所有新资产。

扫描规则集

扫描规则集决定了针对源之一运行扫描时扫描将查找的信息的类型。 可用规则取决于要扫描的源的类型,但包括应扫描的文件类型以及需要的分类类型等项。

许多数据源类型已具有 系统扫描规则集,但你也可以 创建自己的扫描规则集 ,以便为组织定制扫描。

安排您的扫描

Microsoft Purview 允许您选择在您选定的特定时间进行每日、每周或每月扫描。 详细了解支持的计划选项。 每日或每周扫描可能适用于具有积极开发或经常更改的结构的数据源。 每月扫描更适用于不经常更改的数据源。 请与要扫描的源管理员协作,确定源上的计算需求较低的时间。

扫描如何检测已删除的资产

Microsoft Purview 目录只有在执行扫描时才能了解数据存储的状态。 要使目录知道文件、表或容器是否被删除,它会将上次扫描输出与当前扫描输出进行比较。 例如,假设上次扫描 Azure Data Lake Storage Gen2 帐户时,包含一个名为 folder1 的文件夹。 再次扫描同一帐户时,folder1 缺失。 因此,目录假定文件夹已删除。

小窍门

由于检测到已删除文件的方式,可能需要多次成功的扫描来检测和解析已删除的资产。 如果统一目录不会注册删除操作来支持有范围的扫描,请多次尝试完整扫描来解决问题。

检测已删除的文件

检测缺失文件的逻辑适用于同一个用户和不同用户的多次扫描。 例如,假设某个用户对 Data Lake Storage Gen2 数据存储上的文件夹 A、B 和 C 运行一次扫描。稍后,同一帐户中的不同用户对同一数据存储的 C、D 和 E 文件夹运行一次不同的一次性扫描。 由于文件夹 C 被扫描了两次,因此目录会检查它是否可能被删除。 但是,仅扫描一次文件夹 A、B、D 和 E,目录不会为已删除的资产检查它们。

为了将已删除的文件从目录中移除,请务必定期运行扫描。 扫描间隔很重要,因为在运行另一次扫描之前,目录无法检测到已删除的资产。 因此,如果你每月对特定存储运行一次扫描,则在运行下一次扫描之前,目录无法检测该存储中的任何已删除的数据资产。

枚举大数据存储(如 Data Lake Storage Gen2)时,有多种方法(包括枚举错误和丢弃的事件)丢失信息。 特定扫描可能会错过已创建或已删除的文件。 因此,除非目录确定文件已删除,否则它不会从目录中删除该文件。 这一策略的意义是,如果某个文件在扫描的数据存储中不存在,但仍存在于目录中,则可能会出现错误。 在某些情况下,可能需要对数据存储进行两次或三次扫描才能捕获某些已删除的资产。

注释

  • 标记为删除的资产将在成功扫描后被删除。 在处理和删除已删除资产之前,已删除的资产可能会继续显示在目录中一段时间。
  • 以下源不支持删除检测:Azure Databricks、Erwin、SAP BW。 从数据源中删除对象后,后续扫描不会自动删除 Microsoft Purview 中的相应资产。

摄入

引入是使用通过各种进程收集的元数据填充数据映射的过程。

注释

所有子对象 (引用实体) 和联系人 (所有者、专家) 的总计数不得超过 20,000 个实体。

后续步骤

有关更多信息或扫描资源的具体说明,请点击以下链接。