在 Microsoft Purview 中连接和管理 Azure Databricks Unity Catalog
本文概述了如何在 Microsoft Purview 中注册 Azure Databricks,以及如何向 Azure Databricks Unity Catalog 进行身份验证并与之交互。 有关 Microsoft Purview 的详细信息,请阅读简介文章。
支持的功能
元数据提取 | 完全扫描 | 增量扫描 | 限定范围扫描 | 分类 | 标记 | 访问策略 | 沿袭 | 数据共享 | 实时视图 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | No | 是 | 是 | 否 | No | 是 | 否 | 否 |
扫描 Azure Databricks Unity Catalog 时,Azure Purview 支持:
- 提取技术元数据,包括:
- 元存储
- 目录
- 架构
- 表(含列)
- 视图(含列)
- 在笔记本运行期间获取表、视图、列之间的资产关系世系。
设置扫描时,可以选择扫描整个 Unity Catalog,也可以将扫描范围限制在一小部分目录。
注意
此连接器会从 Azure Databricks Unity Catalog 引入元数据。 若要扫描 Azure Databricks 工作区范围的元数据,请参阅 Azure Databricks Hive 元存储连接器。
已知的限制
- 从数据源中删除对象后,后续扫描目前不会自动删除 Microsoft Purview 中的相应资产。
必备条件
你的 Azure 帐户必须具有有效订阅。 创建帐户。
你必须具有有效的 Microsoft Purview 帐户。
需要 Azure 密钥保管库,并授予 Microsoft Purview 访问机密的权限。
需要拥有数据源管理员和数据读取者权限才能在 Microsoft Purview 治理门户中注册和管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的访问控制。
为了扫描 Azure Databricks Unity Catalog,Microsoft Purview 将连接到工作区中的 SQL 仓库,并使用个人访问令牌进行身份验证。 你需要拥有一个已启用 Unity Catalog 的 Azure Databricks 工作区,并将其附加到要扫描的元存储。 在 Azure Databricks 工作区中:
生成个人访问令牌,并将其作为机密存储在 Azure 密钥保管库中。
对于要引入 Microsoft Purview 的所有对象,用户至少需要对表/视图具有 SELECT 权限,对对象的目录具有 USE CATALOG 权限,对对象的架构具有 USE SCHEMA 权限。
若要扫描 Unity Catalog 元存储中的所有对象,请使用具有元存储管理员角色的用户身份。 有关详细信息,请参阅管理 Unity Catalog 中的特权以及Unity Catalog 特权和安全对象。
对于分类,用户还需要对表/视图拥有 SELECT 权限才能检索示例数据。
若要使用 Microsoft Purview 从 Azure Databricks 提取世系,必须满足以下先决条件:
启用系统架构:必须在 Unity Catalog 中启用系统架构 system.access。 这是必需的,因为世系信息存储在系统表中,并且启用此架构允许访问这些表。 详细了解如何使用系统表监视使用情况。
用户特权:用于扫描的用户帐户需要对以下系统表具有 SELECT 特权:
system.access.table_lineage
system.access.column_lineage
这些权限是必需的,因为世系数据是直接从系统表读取的,如果没有必要的访问权限,Microsoft Purview 无法检索沿袭信息。
注册
本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Azure Databricks 工作区。
转到你的 Microsoft Purview 帐户。
在左侧窗格中选择“数据映射”。
选择“注册”。
在“注册源”中,选择“Azure Databricks”>“继续”。
在“注册源(Azure Databricks)”屏幕上执行以下操作:
对于“名称”,请输入 Microsoft Purview 将列为数据源的名称。
对于“Azure 订阅”和“Databricks 工作区名称”,请从下拉列表中选择要扫描的订阅和工作区。 系统会自动填充 Databricks 工作区 URL。
从列表中选择连接。
选择“完成”。
扫描
使用以下步骤扫描 Azure Databricks 以自动识别资产。 若要大致了解有关扫描的更多信息,请参阅 Microsoft Purview 中的扫描和引入。
转到“源”。
选择已注册的 Azure Databricks。
选择“+ 新建扫描”。
提供以下详细信息:
名称:输入扫描的名称。
提取方法:指示从 Hive 元存储或 Unity Catalog 中提取元数据。 选择“Unity Catalog”。
通过集成运行时连接:选择默认的 Azure 集成运行时、托管 VNet IR 或创建的 Kubernetes 支持的自承载集成运行时。
凭据:选择用于连接到数据源的凭据。 请确保:
- 在创建凭据时选择“访问令牌身份验证”。
- 在相应的框中,提供你在先决条件部分创建的个人访问令牌的机密名称。
有关详细信息,请参阅 Microsoft Purview 中用于源身份验证的凭据。
HTTP 路径:指定 Microsoft Purview 将连接到并执行扫描的 Databricks SQL 仓库的 HTTP 路径,例如
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
。 你可以在“Azure Databricks 工作区”->“SQL 仓库”->你的仓库 ->“连接详细信息”->“HTTP 路径”中找到它。世系提取:将世系提取切换到打开以提取已扫描资产的世系。
选择“测试连接”以验证设置。
选择“继续”。
在“限定扫描范围”页面中,选择要扫描的目录。
选择一个扫描规则集进行分类。 可以选择系统默认项、现有的自定义规则集,或以内联方式创建新规则集。 有关详细信息,请查看分类一文。
对于“扫描触发器”,可以选择是设置一个计划还是运行一次扫描。
查看扫描,然后选择“保存并运行”。
扫描成功完成后,请参阅如何浏览和搜索资产。
查看扫描和扫描运行情况
若要查看现有扫描,请执行以下操作:
- 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
- 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
- 选择要查看结果的扫描。 窗格会显示先前的所有扫描运行,以及每次扫描运行的状态和指标。
- 选择运行 ID 以检查扫描运行详细信息。
管理扫描
若要编辑、取消或删除扫描:
转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
选择要管理的扫描。 然后,可以:
- 通过选择“编辑扫描”来编辑扫描。
- 通过选择“取消扫描运行”来取消正在进行的扫描。
- 通过选择“删除扫描”来删除扫描。
注意
- 删除扫描不会删除以前扫描中创建的类别资产。
浏览和搜索资产
扫描 Azure Databricks 后,可以浏览数据目录或搜索数据目录,以查看资产详细信息和世系。
按源类型浏览时,将分别看到 Azure Databricks Unity Catalog 和 Azure Databricks 的两个条目。 前者包含 Unity Catalog 项目,包括元存储及其目录/架构/表/视图,而后者包含工作区项目。
在 Azure Databricks 工作区资产中,可以在“属性”选项卡下找到关联的 Unity Catalog,反之同样。
沿袭
浏览特定 Azure Databricks 资产时,可以看到已捕获世系的笔记本。
转到“资产”->“世系”选项卡,可在适用时查看 Azure Databricks 笔记本资产或表/视图资产上的世系。
有关受支持的 Databricks Unity Catalog 世系应用场景,请参阅受支持的功能部分。 若要详细了解世系的常规信息,请参阅数据世系和世系用户指南。
常见问题 (FAQ)
Microsoft Purview 是否捕获了 Unity Catalog 的列级别世系?
Microsoft Purview 可以在 Unity Catalog 表/视图级别和列级别捕获世系。
我刚刚运行了我的笔记本,但 Microsoft Purview 没有提取世系。 发生了什么情况?
笔记本执行后,Databricks 在更新其系统表中的世系信息时可能会稍有延迟(几分钟)。 在系统表更新后,Microsoft Purview 将能够提取世系。
后续步骤
现在你已经注册了源,请按照以下指南来详细了解 Microsoft Purview 和你的数据: