Microsoft Purview 数据目录世系用户指南

本文概述了 Microsoft Purview 数据目录中的数据世系功能。

背景

Microsoft Purview 的其中一个平台功能是能够显示数据进程创建的数据集之间的世系。 数据工厂、Data Share 和 Power BI 等系统在数据移动时可捕获数据世系。 还可通过 Atlas 挂钩和 REST API 来支持自定义世系报表。

世系集合

在 Microsoft Purview 中从企业数据系统收集的元数据拼结在一起以显示端到端数据世系。 将世系收集到 Microsoft Purview 中的数据系统大致分为以下三种类型:

每个系统支持不同级别的世系范围。 请查看下面各部分或系统各世系文章,确认当前可用的世系范围。

已知的限制

  • 用作进程活动源的数据库视图(Azure 数据工厂、Synapse Pipelines、Azure SQL 数据库、Azure Data Share)当前捕获为 Microsoft Purview 中的数据库表对象。 如果还扫描数据库,则会在 Microsoft Purview 中单独发现视图资产。 这种情况下,在 Microsoft Purview 中捕获了两个同名资产,一个作为具有数据世系的表,另一个作为视图。
  • 如果存储过程包含 drop 或 create 语句,则当前不会在世系中捕获它们。

数据处理系统

数据集成和 ETL 工具可以在执行时将世系推送到 Microsoft Purview。 数据工厂、Data Share、Synapse、Azure Databricks 等工具属于此类数据处理系统。 数据处理系统从不同的数据库和存储解决方案引用数据集作为来源,以创建目标数据集。 下表列出了当前与 Microsoft Purview 世系集成的数据处理系统的列表。

数据处理系统 支持的范围
气流 Airflow 世系
Azure 数据工厂 Copy 活动
数据流活动
执行 SSIS 包活动
Azure SQL 数据库(预览版) 存储过程执行的世系提取
Azure Synapse Analytics Copy 活动
数据流活动

数据存储系统

数据库和存储解决方案(例如 SAP)的查询引擎可使用脚本语言转换数据。 视图/存储过程等位置中的数据世系信息将收集到 Microsoft Purview 中,与其他系统中的世系拼结。 以下数据源通过 Microsoft Purview 数据扫描支持世系。 请从相应的文章中详细了解受支持的世系方案。

类别 数据源
Azure Azure Databricks

数据分析和报表系统

数据分析和报表系统(如 Azure 机器学习和 Power BI)将世系报告到 Microsoft Purview 中。 这些系统将使用存储系统中的数据集并通过其元模型进行处理,以创建 BI 仪表板、ML 试验等。

数据分析和报表系统 支持的范围
Power BI 数据集、数据流、报表和仪表板

世系入门

Microsoft Purview 中的世系包括数据集和进程。 数据集也称为节点,而进程也可称为边缘:

  • 数据集(节点) :数据集(结构化或非结构化)作为进程的输入提供。 例如,SQL 表、Azure blob 和文件(如 .csv 和 .xml)都被视为数据集。 在 Microsoft Purview 的世系部分,数据集用矩形框表示。

  • 进程(边缘) :在数据集上执行的活动或转换称为进程。 例如,ADF 复制活动、Data Share 快照等。 在 Microsoft Purview 的世系部分,进程用圆边框表示。

若要访问 Microsoft Purview 中资产的世系信息,请执行以下步骤:

  1. 使用以下方法打开 Microsoft Purview 治理门户:

  2. 在 Microsoft Purview 治理门户的“主页”上,搜索数据集名称或进程名称(如 ADF 复制或数据流活动)。 然后按 Enter。

  3. 从搜索结果中选择资产,并选择其“世系”选项卡。

    Screenshot showing how to select the Lineage tab.

资产级世系

Microsoft Purview 支持数据集和进程的资产级世系。 若要查看资产级世系,请转到目录中当前资产的“世系”选项卡。 选择当前数据集资产节点。 默认情况下,属于该数据的列的列表显示在左窗格中。

Screenshot showing how to select View columns in the lineage page.

手动世系

Microsoft Purview 中的数据世系对于本地、多云和 SaaS 环境中的许多资产来说都是自动化的。 虽然我们会继续添加更多自动化源,但手动世系允许你记录尚不支持自动化的源的世系元数据,而无需使用任何代码。

若要为任何资产添加手动世系,请执行以下步骤:

  1. 在数据目录中搜索资产,然后选择它以查看详细信息。

  2. 选择“编辑”,导航到“世系”选项卡,然后在底部面板中选择“添加手动世系”。

    Screenshot of editing an asset and adding manual lineage.

  3. 若要配置资产世系,请执行以下操作:

    1. 选择资产下拉列表以从建议的列表查找资产,或选择“查看更多内容”以搜索完整目录。 选择要链接的资产。
    2. 选择交换图标以将关系方向配置为“生成”(对于下游世系)或“使用”(对于上游世系)。
    3. 若要删除世系,请选择垃圾桶图标。

    Screenshot of a data asset lineage page, with the asset dropdown highlighted.

  4. 在两个数据资产之间添加世系时,可以额外配置列级世系。 选择行首的展开图标,然后从对应的下拉列表中选择上游和下游列,以配置列映射。 选择加号图标可添加更多列世系;选择垃圾桶图标可删除现有世系。

    Screenshot of configuring column level lineage.

  5. 可以通过再次选择“添加手动世系”按钮来添加更多资产级世系。 完成后,选择“保存”按钮以保存世系并退出编辑模式。

手动世系的已知限制

  • 当前资产选取器体验允许一次仅选择一个资产。
  • 两个数据资产之间的世系目前支持列级手动世系,而两者之间涉及过程资产时则不支持此类世系。
  • 源资产和目标资产所需的数据管护访问权限。
  • 这些资产类型目前不支持手动世系,因为它们支持自动世系:
    • Azure 数据工厂
    • Synapse 管道
    • Power BI 数据集
    • Azure SQL 存储过程

数据集列世系

若要查看数据集的列级世系,请访问目录中当前资产的“世系”选项卡,然后执行以下步骤:

  1. 进入“世系”选项卡后,在左窗格中,选中要在数据世系中显示的每个列旁边的复选框。

    Screenshot showing how to select columns to display in the lineage page.

  2. 将鼠标悬停在左窗格中选定的列或世系画布的数据集中选定的列,以查看列映射。 所有列实例都已突出显示。

    Screenshot showing how to hover over a column name to highlight the column flow in a data lineage path.

  3. 如果列数大于左窗格中可显示的列数,请使用筛选器选项按名称选择特定列。 或者,可以使用鼠标滚动列表。

    Screenshot showing how to filter columns by column name on the lineage page.

  4. 如果世系画布包含更多节点和边缘,请使用筛选器按名称选择数据资产或进程节点。 或者,可以使用鼠标在世系窗口周围平移。

    Screenshot showing data asset nodes by name on the lineage page.

  5. 使用左窗格中的切换键在世系画布中突出显示数据集列表。 如果关闭切换键,将显示至少包含其中一个选定列的任何资产。 如果打开切换键,将只显示包含所有列的数据集。

    Screenshot showing how to use the toggle to filter the list of nodes on the lineage page.

进程列世系

还可以在数据目录中查看数据处理,例如复制活动。 例如,在此世系流中,选择复制活动:

Screenshot of a data lineage flow with one of the copy activity nodes highlighted.

复制活动将会展开,然后你可以选择“切换到资产”按钮,这将为你提供有关处理本身的更多详细信息。

Screenshot of the copy activity node expanded, and the new switch to asset button selected.

数据进程可以采用一个或多个输入数据集生成一个或多个输出。 在 Microsoft Purview 中,列级世系可用于进程节点。

  1. 从“列”面板的下拉菜单中,在输入和输出数据集之间进行切换。

  2. 从一个或多个表中选择列,以查看从输入数据集流向相应输出数据集的世系。

    Screenshot showing columns lineage of a process node.

浏览世系中的资产

  1. 在任何资产上选择“切换到资产”,可从“世系”视图中查看其相应的元数据。 这样做可有效地从“世系”视图浏览到目录中的其他资产。

    Screenshot how to select Switch to asset in a lineage data asset.

  2. 对于常用的数据集,世系画布可能会变得很复杂。 为避免混乱,默认视图将仅显示受关注资产的五个级别的世系。 其余世系可以通过选择世系画布中的气泡展开。 数据使用者还可以隐藏不感兴趣的画布中的资产。 若要进一步减少混乱,请关闭世系画布顶部的切换键“更多世系”。 此操作将隐藏世系画布中的所有气泡。

    Screenshot showing how to toggle More lineage.

  3. 使用世系画布中的智能按钮获取最佳世系视图:

    1. 全屏
    2. 缩放到合适大小
    3. 放大/缩小
    4. 自动对齐
    5. 缩放预览
    6. 以及更多选项:
      1. 让当前资产居中
      2. 重置为默认视图

    Screenshot showing how to select the lineage smart buttons.

后续步骤