在 Microsoft Purview 中监视数据映射填充

在 Microsoft Purview 中可以扫描各种类型的数据源,并随时间的推移查看扫描状态。 还可以将其他服务与 Microsoft Purview 相连接,并查看引入的资产/关系的趋势。 本文概述如何监视和获取数据映射填充的鸟瞰图。

监视扫描运行

  1. 使用以下方法打开 Microsoft Purview 治理门户:

  2. 打开 Microsoft Purview 帐户并选择“数据映射”- >“监视”。 你需要在任何集合上具有“数据源管理员”角色才能访问此页面。 而且可以看到扫描运行,该运行属于你拥有数据源管理员特权的集合。

  3. 概要 KPI 显示某个时间段内运行的扫描总数。 该时间段默认为过去 30 天,你也可以选择过去 7 天。 根据所选的时间筛选器,可以在图中按周或按天查看已成功、异常完成、已失败、已取消和正在进行的扫描运行的分布。 这是端到端扫描运行状态,包括发现和引入阶段。 访问扫描运行详细信息以详细了解状态详细信息。

    查看一段时间内的扫描运行

  4. 在图的底部,有一个“查看更多”链接供你进一步浏览。 单击该链接会打开“扫描状态”页。 在这里可以看到扫描名称,以及在某个时间段内其状态为“已成功”、“异常完成”、“已失败”或“已取消”的次数。 还可以按源类型筛选列表。

    详细查看扫描状态

  5. 可以选择扫描名称以进一步浏览特定的扫描。 它将你连接到扫描历史记录页,你可在此找到扫描运行列表,其中包含更多执行详细信息。

    查看给定扫描的扫描历史记录

  6. 可以单击“运行 ID”以进一步检查扫描运行详细信息

已知限制:

目前,此监视体验不包括以下信息。 可以检查相应的扫描运行详细信息

  • 不包括 Azure SQL 数据库的世系提取扫描运行。
  • 对于 Azure Synapse Analytics 工作区、Azure 订阅/资源组和 AWS 帐户的扫描,它仅捕获父级扫描运行的状态/计数,而不捕获每个资源的子扫描运行。

扫描运行详细信息

可以从不同的位置导航到给定扫描的扫描运行历史记录:

  • 监视扫描运行部分中所述,转到“数据映射”->“监视”。
  • 转到“数据映射”->“源”-> 选择所需的数据源 -> 查看“扫描”、“最近的扫描”或“最近失败的扫描”。
  • 转到“数据映射”->“集合”-> 选择所需的集合 ->“扫描”-> 选择要查看其详细信息的扫描名称。

扫描运行历史记录的保留期为 90 天。

可以单击“运行 ID”以进一步检查扫描运行详细信息:

查看扫描运行执行详细信息的屏幕截图。

  • 最上面的部分概述了扫描运行,包括以下信息:

    • 运行 ID:用于标识此特定扫描运行的 GUID。
    • 扫描类型:手动扫描或计划的扫描。
    • 运行类型:完整扫描或增量扫描。
    • 扫描规则集:在运行中使用的扫描规则集(如果适用)。
    • 扫描运行状态:总体扫描状态。 它结合了元数据发现和引入阶段的状态。
    • 扫描运行持续时间:端到端执行持续时间和开始/结束时间。
  • “元数据发现”部分汇总了 Purview 连接到源、提取元数据/世系和对数据分类的发现阶段的指标。

    • 发现状态

      状态 说明
      已完成 元数据发现成功。
      已完成但有异常 元数据发现完成,而某些基础操作失败,这可能会导致扫描结果中缺少资产、元数据或分类。 可以在异常日志中查看详细信息。
      已失败 元数据发现失败。 可以通过单击状态旁边的“更多信息”链接来检查错误详细信息。
      已取消 用户取消了扫描运行。
      正在进行 元数据发现正在运行中。
      已排队 元数据发现正在等待可用的集成运行时资源。
      如果你使用自承载集成运行时,请注意,每个节点可以同时运行多个并发扫描,具体取决于计算机规格(CPU 和内存)。 更多扫描处于“排队”状态。
      已中止 元数据发现受到限制。 这表示此 Microsoft Purview 帐户当前正在进行的扫描运行超过了允许的最大并发计数。 在此处详细了解限制。 此特定扫描运行处于等待中状态,并将在其他正在进行的扫描完成后执行。

      扫描运行在“受限制”或“排队”状态期间不产生费用。

    • 已发现的资产数:从源中枚举的资产数。 对于完整扫描和增量扫描,这包括配置范围内的所有资产,无论它们是现有资产还是自上次扫描运行以来新建/已更新的资产。 对于增量扫描,只会额外提取新建或已更新资产的详细元数据。

    • 已分类的资产数:为将数据分类而采样的资产数,无论这些资产是否具有任何匹配的分类。 它是基于采样机制的已发现资产的子集。 对于增量扫描,只能选择新建或已更新的资产进行分类。

    • 持续时间:发现阶段持续时间和开始/结束时间。

  • “元数据引入”部分汇总了 Purview 使用识别的元数据和关系填充数据映射的引入阶段的指标。

    • 引入状态:

      状态 说明
      已完成 所有资产和关系已成功引入到数据映射中。
      已完成,但出现异常(以前称为“部分完成”) 已成功将一部分资产和关系引入到数据映射中,还有一部分资产和关系引入失败。 可以在异常日志中查看详细信息。
      已失败 引入阶段失败。
      已取消 用户取消了扫描运行,因此同时取消了引入。
      正在进行 正在运行引入。
      已排队 引入正在等待可用的服务资源或等待扫描发现元数据。
    • 已引入的资产数:已引入到数据映射的资产数。 对于增量扫描,它仅包括新建或已更新的资产,在这种情况下,此数字可能小于“已发现的资产数”。 扫描基于文件的源时,此数字是聚合资源集之前的原始资产计数。

    • 已引入的关系数:已引入到数据映射的关系数。 这包括世系和其他关系,例如外键关系。

    • 持续时间:引入持续时间和开始/结束时间。

查看异常日志(预览版)

重要

此功能目前以预览版提供。 Azure 预览版的补充使用条款包含适用于 beta 版、预览版或其他尚未正式发布的 Azure 功能的其他法律条款。

当某些资产或关系在扫描运行期间无法从源发现或无法纳入数据映射时。 例如,状态最终为已完成但有异常,你可以:

  1. 选择扫描。
  2. 选择失败或有异常的扫描的运行 ID。
  3. 在“扫描运行详细信息”面板中选择“下载日志”按钮。 它提供异常日志文件,用于捕获失败的详细信息。

发现阶段日志

下表显示了发现阶段日志文件的架构。

说明
时间戳 发现操作发生时的 UTC 时间戳。
ErrorCode 异常的错误代码。
OperationName 包含下列值:
- 枚举:指示枚举给定作用域下子对象的操作,例如列出容器下的文件夹/文件,列出数据库下的表。 发生故障时,操作项的子对象不包括在扫描结果中。
- GetMetadata:指示提取对象的元数据的操作,例如表、文件等。发生故障时,操作项的资产可能不包含完整的元数据。
- SampleResourceSet:指示扫描基于文件的数据源时对与资源集模式匹配的最新文件采样的操作。 发生故障时,操作项所属的资源集可能会缺少分类/架构。
- ReadData:指示从源检索示例数据的操作。 发生故障时,操作项未进行分类。 如果它是基于文件的源,则也可能缺少架构。
- 分类:指示应用分类的操作。 发生故障时,操作项可能会缺少分类。
- GenerateAsset:指示将发现的元数据转换为 Microsoft Purview 资产的操作。 发生故障时,通常是由于系统错误,操作项的资产最终没有显示在数据映射中。
OperationItem 失败的资产/关系的标识符,通常使用完全限定的名称。
消息 有关因什么原因导致哪些资产/关系未能发现的详细信息。

已知限制:

  • 当使用 Azure 集成运行时或托管虚拟网络集成运行时进行扫描时,支持发现阶段日志。
  • 扫描 Azure 或 Power BI 数据源时,支持发现阶段日志。
  • 目前,它可能不会捕获扫描运行期间发生的所有异常。

引入阶段日志

下表显示了引入阶段日志文件的架构。

说明
TimeStamp 引入操作发生时的 UTC 时间戳。
ErrorCode 异常的错误代码。
OperationItem 失败的资产/关系的标识符,通常使用完全限定的名称。
Message 有关因什么原因导致哪些资产/关系无法引入的详细信息。 如果资源集引入失败,它可能会应用于匹配相同命名模式的多个资产,并且消息中包含受影响的计数。

可以将其他服务与 Microsoft Purview 相连接以建立一个“链接”,从而使该服务资产的元数据和世系对 Microsoft Purview 可用。 目前,Azure 数据工厂Azure Synapse Analytics 支持链接。

若要监视通过链接引入的资产和关系,请执行以下操作:

  1. 转到你的 Microsoft Purview 帐户 -> 打开“Microsoft Purview 治理门户”->“数据映射”->“监视”->“链接”。 你需要在任何集合上具有“数据源管理员”角色才能访问“监视”选项卡。而且你能看到的结果属于你拥有数据源管理员权限的集合。 需要对根集合拥有权限才能监视 Azure 数据工厂和 Azure Synapse Analytics 链接。

  2. 可以查看高级 KPI,包括源总数、引入的资产数和关系(世系),随后是一段时间内的趋势图表。 可以对以下内容应用更多筛选器,以缩小结果范围:

    • 源类型
    • 源名称
    • 日期范围:默认值为 30 天。 还可以选择过去七天或自定义日期范围。 保留期为 45 天。

    报告的指标的截止时间为右上角显示的日期时间。 并且聚合每小时发生一次。

    查看链接结果的屏幕截图。

  3. 在图的底部,有一个“查看更多”链接供你进一步浏览。 在“链接状态”页中,可以看到源名称的列表,以及源类型、引入的资产数、引入的关系数和上次运行日期时间。 将延用上一页中的筛选器,并且你可以按源类型、源名称和日期范围进一步筛选列表。

    按源查看链接结果的屏幕截图。

  4. 可以通过单击源名称向下钻取到每个源,以查看下一级别的详细信息。 例如,对于 Azure 数据工厂,页面中会显示每个管道活动如何以 <pipeline_name>/<activity_name> 格式的名称向 Microsoft Purview 报告资产和关系。

    按源的子项目查看链接结果的屏幕截图。

已知的限制

  • 对于 Azure 数据工厂和 Azure Synapse Analytics,此链接监视目前会捕获从复制活动生成的资产和关系,但不会捕获数据流和 SSIS 活动。
  • 聚合和日期筛选器采用 UTC 时间。

扫描不再运行

如果你的 Microsoft Purview 扫描曾经成功运行,但现在失败,请检查以下事项:

  1. 首先检查错误消息以查看失败详细信息。
  2. 是否已更改或轮换资源的凭据? 如果是,则需要进行更新,让扫描使用正确的凭据。
  3. 是否是 Azure Policy 在阻止存储帐户更新? 如果是,请按照 Microsoft Purview 异常标记指南为 Microsoft Purview 帐户创建异常。
  4. 你是否在使用自承载集成运行时? 请检查它是否是最新的软件,以及是否已连接到你的网络。

后续步骤