Microsoft Purview 数据目录世系用户指南

本文概述了 Microsoft Purview 数据目录中的数据世系功能。

背景

Microsoft Purview 的其中一个平台功能是能够显示数据进程创建的数据集之间的世系。 数据工厂、Data Share 和 Power BI 等系统在数据移动时可捕获数据世系。 还可通过 Atlas 挂钩和 REST API 来支持自定义世系报表。

世系集合

在 Microsoft Purview 中从企业数据系统收集的元数据拼结在一起以显示端到端数据世系。 将世系收集到 Microsoft Purview 中的数据系统大致分为以下三种类型:

每个系统支持不同级别的世系范围。 请查看下面各部分或系统各世系文章,确认当前可用的世系范围。

已知的限制

  • 用作进程活动源的数据库视图(Azure 数据工厂、Synapse Pipelines、Azure SQL 数据库、Azure Data Share)当前捕获为 Microsoft Purview 中的数据库表对象。 如果还扫描数据库,则会在 Microsoft Purview 中单独发现视图资产。 这种情况下,在 Microsoft Purview 中捕获了两个同名资产,一个作为具有数据世系的表,另一个作为视图。
  • 如果存储过程包含 drop 或 create 语句,则当前不会在世系中捕获它们。

数据处理系统

数据集成和 ETL 工具可以在执行时将世系推送到 Microsoft Purview。 数据工厂、Data Share、Synapse、Azure Databricks 等工具属于此类数据处理系统。 数据处理系统从不同的数据库和存储解决方案引用数据集作为来源,以创建目标数据集。 下表列出了当前与 Microsoft Purview 世系集成的数据处理系统的列表。

数据处理系统 支持的范围
气流 Airflow 世系
Azure 数据工厂 Copy 活动
数据流活动
执行 SSIS 包活动
Azure SQL 数据库(预览版) 存储过程执行的世系提取
Azure Synapse Analytics Copy 活动
数据流活动

数据存储系统

数据库和存储解决方案(例如 SAP)的查询引擎可使用脚本语言转换数据。 视图/存储过程等位置中的数据世系信息将收集到 Microsoft Purview 中,与其他系统中的世系拼结。 以下数据源通过 Microsoft Purview 数据扫描支持世系。 请从相应的文章中详细了解受支持的世系方案。

类别 数据源
Azure Azure Databricks

数据分析和报表系统

数据分析和报表系统(如 Azure 机器学习和 Power BI)将世系报告到 Microsoft Purview 中。 这些系统将使用存储系统中的数据集并通过其元模型进行处理,以创建 BI 仪表板、ML 试验等。

数据分析和报表系统 支持的范围
Power BI 数据集、数据流、报表和仪表板

世系入门

Microsoft Purview 中的世系包括数据集和进程。 数据集也称为节点,而进程也可称为边缘:

  • 数据集(节点) :数据集(结构化或非结构化)作为进程的输入提供。 例如,SQL 表、Azure blob 和文件(如 .csv 和 .xml)都被视为数据集。 在 Microsoft Purview 的世系部分,数据集用矩形框表示。

  • 进程(边缘) :在数据集上执行的活动或转换称为进程。 例如,ADF 复制活动、Data Share 快照等。 在 Microsoft Purview 的世系部分,进程用圆边框表示。

若要访问 Microsoft Purview 中资产的世系信息,请执行以下步骤:

  1. 使用以下方法打开 Microsoft Purview 治理门户:

  2. 在 Microsoft Purview 治理门户的“主页”上,搜索数据集名称或进程名称(如 ADF 复制或数据流活动)。 然后按 Enter。

  3. 从搜索结果中选择资产,并选择其“世系”选项卡。

    屏幕截图显示如何选择“世系”选项卡。

资产级世系

Microsoft Purview 支持数据集和进程的资产级世系。 若要查看资产级世系,请转到目录中当前资产的“世系”选项卡。 选择当前数据集资产节点。 默认情况下,属于该数据的列的列表显示在左窗格中。

屏幕截图显示如何在世系页中选择“查看列”。

手动世系

Microsoft Purview 中的数据世系对于本地、多云和 SaaS 环境中的许多资产来说都是自动化的。 虽然我们会继续添加更多自动化源,但手动世系允许你记录尚不支持自动化的源的世系元数据,而无需使用任何代码。

若要为任何资产添加手动世系,请执行以下步骤:

  1. 在数据目录中搜索资产,然后选择它以查看详细信息。

  2. 选择“编辑”,导航到“世系”选项卡,然后在底部面板中选择“添加手动世系”。

    编辑资产和添加手动世系的屏幕截图。

  3. 若要配置资产世系,请执行以下操作:

    1. 选择资产下拉列表以从建议的列表查找资产,或选择“查看更多内容”以搜索完整目录。 选择要链接的资产。
    2. 选择交换图标以将关系方向配置为“生成”(对于下游世系)或“使用”(对于上游世系)。
    3. 若要删除世系,请选择垃圾桶图标。

    数据资产世系页的屏幕截图,其中突出显示了资产下拉列表。

  4. 在两个数据资产之间添加世系时,可以额外配置列级世系。 选择行首的展开图标,然后从对应的下拉列表中选择上游和下游列,以配置列映射。 选择加号图标可添加更多列世系;选择垃圾桶图标可删除现有世系。

    配置列级世系的屏幕截图。

  5. 可以通过再次选择“添加手动世系”按钮来添加更多资产级世系。 完成后,选择“保存”按钮以保存世系并退出编辑模式。

手动世系的已知限制

  • 当前资产选取器体验允许一次仅选择一个资产。
  • 两个数据资产之间的世系目前支持列级手动世系,而两者之间涉及过程资产时则不支持此类世系。
  • 源资产和目标资产所需的数据管护访问权限。
  • 这些资产类型目前不支持手动世系,因为它们支持自动世系:
    • Azure 数据工厂
    • Synapse 管道
    • Power BI 数据集
    • Azure SQL 存储过程

数据集列世系

若要查看数据集的列级世系,请访问目录中当前资产的“世系”选项卡,然后执行以下步骤:

  1. 进入“世系”选项卡后,在左窗格中,选中要在数据世系中显示的每个列旁边的复选框。

    屏幕截图显示如何选择要在世系页中显示的列。

  2. 将鼠标悬停在左窗格中选定的列或世系画布的数据集中选定的列,以查看列映射。 所有列实例都已突出显示。

    屏幕截图显示如何将鼠标悬停在列名称上以突出显示数据世系路径中的列流。

  3. 如果列数大于左窗格中可显示的列数,请使用筛选器选项按名称选择特定列。 或者,可以使用鼠标滚动列表。

    屏幕截图显示如何按世系页上的列名筛选列。

  4. 如果世系画布包含更多节点和边缘,请使用筛选器按名称选择数据资产或进程节点。 或者,可以使用鼠标在世系窗口周围平移。

    屏幕截图显示在世系页上按名称显示数据资产节点。

  5. 使用左窗格中的切换键在世系画布中突出显示数据集列表。 如果关闭切换键,将显示至少包含其中一个选定列的任何资产。 如果打开切换键,将只显示包含所有列的数据集。

    屏幕截图显示如何使用切换键来筛选世系页上的节点列表。

进程列世系

还可以在数据目录中查看数据处理,例如复制活动。 例如,在此世系流中,选择复制活动:

数据世系流的屏幕截图,其中一个复制活动节点突出显示。

复制活动将会展开,然后你可以选择“切换到资产”按钮,这将为你提供有关处理本身的更多详细信息。

展开的复制活动节点的屏幕截图,其中选择了新的“切换到资产”按钮。

数据进程可以采用一个或多个输入数据集生成一个或多个输出。 在 Microsoft Purview 中,列级世系可用于进程节点。

  1. 从“列”面板的下拉菜单中,在输入和输出数据集之间进行切换。

  2. 从一个或多个表中选择列,以查看从输入数据集流向相应输出数据集的世系。

    屏幕截图显示进程节点的世系列。

浏览世系中的资产

  1. 在任何资产上选择“切换到资产”,可从“世系”视图中查看其相应的元数据。 这样做可有效地从“世系”视图浏览到目录中的其他资产。

    屏幕截图显示如何在世系数据资产中选择“切换到资产”。

  2. 对于常用的数据集,世系画布可能会变得很复杂。 为避免混乱,默认视图将仅显示受关注资产的五个级别的世系。 其余世系可以通过选择世系画布中的气泡展开。 数据使用者还可以隐藏不感兴趣的画布中的资产。 若要进一步减少混乱,请关闭世系画布顶部的切换键“更多世系”。 此操作将隐藏世系画布中的所有气泡。

    屏幕截图显示如何切换“更多世系”。

  3. 使用世系画布中的智能按钮获取最佳世系视图:

    1. 全屏
    2. 缩放到合适大小
    3. 放大/缩小
    4. 自动对齐
    5. 缩放预览
    6. 以及更多选项:
      1. 让当前资产居中
      2. 重置为默认视图

    屏幕截图显示如何选择世系智能按钮。

手动或使用 REST API 生成自定义世系

Microsoft Purview 的其中一个重要平台功能是能够显示数据进程创建的数据集之间的世系。 数据工厂、Data Share 和 Power BI 等系统在数据移动时可捕获数据世系。 在某些情况下,出于实际可视化和/或企业报告目的,Purview 自动生成的世系不完整或缺失。 在这些场景中,可在 Microsoft Purview 门户中或通过 Apache Atlas 挂钩和 REST API 手动创建自定义世系条目。 使用 REST API 报告或生成自定义世系的另一个主要好处是克服或缓解手动世系公开的功能限制。

若要手动生成自定义世系,可按照以下用户指南操作:Microsoft Purview 中的手动世系条目

若要使用 REST API 在 Microsoft Purview 中生成自定义世系,请按照以下用户指南操作:Microsoft Purview - 使用 REST API 生成自定义世系

提示

在某些情况下,REST API 可提供更多的输入和自定义选项,而不是通过门户手动生成世系条目。

数据世系最佳做法

后续步骤