本页介绍如何使用目录资源管理器和数据世系系统表可视化数据世系。
数据世系概述
Unity 目录捕获Azure Databricks上运行的查询的运行时数据世系。 所有语言都支持血统信息,并且捕获级别可精确到列。 世系数据包括与查询相关的笔记本、作业和仪表板。 世系可以在目录资源管理器中近乎实时地可视化,并使用世系系统表以编程方式检索。
世系还可以包括 Azure Databricks 之外的外部资产和工作流。 该外部数据血缘元数据功能目前处于公共预览阶段。 请参阅自带数据世系。
世系信息汇总来自连接到 Unity Catalog 的元存储中的所有工作区。 这意味着只要在一个工作区中捕获世系,该世系在共享该元存储的任何其他工作区中均可见。 具体而言,对于注册在元存储中的表及其他数据对象,只要用户对这些对象拥有至少 BROWSE 权限,那么在所有连接到该元存储的工作区中,这些用户都能看到这些对象。 但是,有关工作区级别对象(如其他工作区中的笔记本和仪表板)的详细信息将被屏蔽(请参阅 世系限制 和 世系权限)。
世系数据会保留一年。
下图是一个示例世系图。
有关查看数据世系的演示,请参阅 Unity 目录 - 数据世系。
若要了解如何跟踪机器学习模型的世系,请参阅跟踪 Unity Catalog 中模型的数据世系。
要求
如要使用 Unity Catalog 跟踪数据世系,请采取以下做法:
- 表必须已在 Unity Catalog 元数据存储中注册。
- 外部资产(未在 Unity Catalog 元存储中注册的资产)必须添加为 Unity Catalog 中的外部元数据对象,配置与在 Unity Catalog 元存储中注册的其他可安全控制的对象建立关系。 请参阅自带数据世系。
- 查询必须使用 Spark DataFrame(例如,返回 DataFrame 的 Spark SQL 函数)或 Databricks SQL 接口(例如 Notebooks 或 SQL 查询编辑器)。
查看数据世系:
- 必须至少对表或视图的父目录具有
BROWSE权限。 父目录必须能够从工作区访问。 请参阅将目录访问限制到特定的工作区。 - 对于笔记本、作业或仪表板,必须具有工作区中访问控制设置定义的这些对象的权限。 有关详细信息,请参阅 世系权限。
- 对于 已启用 Unity 目录功能的流水线,您必须拥有该流水线的 CAN VIEW 权限。
计算要求:
- 进行Delta表之间流式传输的链路跟踪需要Databricks Runtime 11.3 LTS或更高版本。
- 对于 Lakeflow Spark 声明性管道工作负载中的列血统跟踪,需要使用 Databricks Runtime 13.3 LTS 或更高版本。
网络要求:
- 可能需要更新出站防火墙规则,以允许连接到Azure Databricks控制平面中的事件中心终结点。 **
如果您的 Azure Databricks 工作区部署在您自己的 VNet 中(也称为 VNet 注入),则通常适用。 若要获取适用于你的工作区区域的事件中心终结点,请参阅元存储、项目 Blob 存储、系统表存储、日志 Blob 存储和事件中心终结点 IP 地址。 有关为Azure Databricks设置用户定义的路由(UDR)的信息,请参阅
Azure Databricks 。
使用目录资源管理器查看数据世系
如要使用目录资源管理器查看表世系,请采取以下做法:
在Azure Databricks工作区中,单击
Catalog。
搜索或浏览表。
选择“ 世系 ”选项卡。世系面板随即显示并显示相关表。
若要查看数据世系的交互式图形,请单击“查看世系图形”。
默认情况下,图形中显示一个级别。 单击节点上的
图标以显示更多连接(如果可用)。单击连接世系图中节点的箭头,以打开“世系连接”面板。
“世系连接”面板显示有关连接的详细信息,包括源表和目标表、笔记本和作业。
若要显示与表关联的笔记本,请在 数据血统连接 面板中选择笔记本,或关闭数据血统图并单击 笔记本。
要在新选项卡中打开笔记本,请单击笔记本名称。
若要查看列级世系,请单击图形中的列以显示指向相关列的链接。 例如,单击此示例图中的
full_menu列,会显示此列派生自的上游列:
查看作业世系
若要查看作业世系,请转到表的世系选项卡,选择作业,然后选择下游。 作业名称以表的使用者身份显示在作业名称下。
查看仪表板世系
若要查看仪表板世系,请转到表的“世系”选项卡,然后单击“仪表板”。 仪表板会作为表的使用者出现在“仪表板名称”下。
世系权限
世系图形的权限模型与 Unity Catalog 相同。 在 Unity Catalog 元存储中注册的表和其他数据对象仅对至少具有对这些对象的 BROWSE 权限的用户可见。 如果用户对表没有 BROWSE 或 SELECT 特权,则无法浏览其世系。 只要用户具有足够的对象权限,世系图会显示附连接到元存储的所有工作区中的 Unity Catalog 对象。
例如,针对 userA运行以下命令:
GRANT USE SCHEMA on lineage_data.lineagedemo to `userA@company.com`;
GRANT SELECT on lineage_data.lineagedemo.menu to `userA@company.com`;
userA 查看 lineage_data.lineagedemo.menu 表的世系图时,将看到 menu 表。 他们将无法查看关联表(例如下游 lineage_data.lineagedemo.dinner 表)的相关信息。
dinner 表在 masked 看到的视图中显示为 userA 节点,并且 userA 无法展开图形以显示他们无权访问的表中的下游表。
如果运行以下命令将 BROWSE 权限授予 userB,则该用户可以查看 lineage_data 架构中任何表的世系图。
GRANT BROWSE on lineage_data to `userB@company.com`;
同样,世系用户必须具有查看工作区对象(如笔记本、作业和仪表板)的特定权限。 此外,他们只能在登录到在其中创建这些对象的工作区时查看有关工作区对象的详细信息。 有关其他工作区中工作区级别对象的详细信息在世系图中被屏蔽。
若要详细了解如何在 Unity Catalog 中管理对安全对象的访问,请参阅管理 Unity Catalog 中的特权。 若要详细了解如何管理对工作区对象(例如笔记本、作业、仪表板)的访问,请参阅访问控制列表。
世系限制
数据世系具有以下限制。 这些限制也适用于世系系统表:
尽管世系信息是针对所有连接到同一 Unity Catalog 元存储的工作区进行汇总的,但诸如笔记本和仪表板等工作区对象的详细信息仅在其创建时所在的工作区中可见。
由于世系是在 1 年的滚动时段内计算的,因此不会显示超过 1 年前收集的世系数据。 例如,如果作业或查询从表 A 读取数据并写入表 B,则表 A 和表 B 之间的链接仅显示 1 年。 你可以在一年内按时间范围筛选世系数据。
使用作业 API
runs submit请求或spark submit任务类型的作业在世系视图中不可用。 这些工作流仍会捕获表和列级别世系,但不会捕获指向作业运行的链接。对被重命名的对象不保留血缘关系,这适用于目录、架构、表、视图和列。
如果使用 Spark SQL 数据集检查点,则不会捕获血统。
在大多数情况下,Unity 目录从 Lakeflow Spark 声明性管道捕获世系。 但是,在某些情况下,无法保证完整的世系覆盖率,例如管道使用 PRIVATE 表时。
弹性分布式数据集(RDD)不会在世系中捕获。
全局临时视图不会在数据沿袭中捕获。
事务 每次读取和写入时会生成数据血统信息。 即使事务回滚,世系事件也会保留。
system.information_schema下的表不会在数据血缘中记录。Unity Catalog 会尽可能将数据血缘捕获到列级别。 但在某些情况下无法捕获列级世系。 这些包括:
- 如果源或目标被引用为路径,则无法捕获列世系(例如:
select * from delta."s3://<bucket>/<path>")。 仅当源和目标都由表名引用时,才支持列关系(例如:select * from <catalog>.<schema>.<table>)。 - 使用用户定义的函数(UDF),这可能会掩盖源列和目标列之间的映射。
- 如果源或目标被引用为路径,则无法捕获列世系(例如: