Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
本文概述了如何在 Microsoft Purview 中注册 Azure Databricks,以及如何向 Azure Databricks Unity Catalog 进行身份验证并与之交互。 有关 Microsoft Purview 的详细信息,请阅读简介文章。
扫描 Azure Databricks Unity Catalog 时,Azure Purview 支持:
- 提取技术元数据,包括:
- 元存储
- 目录
- 架构
- 表(含列)
- 视图(含列)
- 在笔记本运行期间获取表、视图、列之间的资产关系世系。
设置扫描时,可以选择扫描整个 Unity Catalog,也可以将扫描范围限制在一小部分目录。
Nota
此连接器会从 Azure Databricks Unity Catalog 引入元数据。 若要扫描 Azure Databricks 工作区范围的元数据,请参阅 Azure Databricks Hive 元存储连接器。
- 从数据源中删除对象后,后续扫描目前不会自动删除 Microsoft Purview 中的相应资产。
你的 Azure 帐户必须具有有效订阅。 创建帐户。
你必须具有有效的 Microsoft Purview 帐户。
需要 Azure 密钥保管库,并授予 Microsoft Purview 访问机密的权限。
需要拥有数据源管理员和数据读取者权限才能在 Microsoft Purview 治理门户中注册和管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的访问控制。
若要使用 Microsoft Purview 从 Azure Databricks 提取世系,必须满足以下先决条件:
启用系统架构:必须在 Unity Catalog 中启用系统架构 system.access。 这是必需的,因为世系信息存储在系统表中,并且启用此架构允许访问这些表。 详细了解如何使用系统表监视使用情况。
用户特权:用于扫描的用户帐户需要对以下系统表具有 SELECT 特权:
system.access.table_lineage
system.access.column_lineage
这些权限是必需的,因为世系数据是直接从系统表读取的,如果没有必要的访问权限,Microsoft Purview 无法检索沿袭信息。
本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Azure Databricks 工作区。
转到你的 Microsoft Purview 帐户。
在左侧窗格中选择“数据映射”。
选择“注册”。
在“注册源”中,选择“Azure Databricks Unity Catalog”>“继续”。
在“注册源(Azure Databricks Unity Catalog)”屏幕上执行以下操作:
对于“名称”,请输入 Microsoft Purview 将列为数据源的名称。
对于元存储 ID,请提供要扫描的 Azure Databricks Unity Catalog 元存储的元存储 ID。
从列表中选择连接。
- 选择“完成”。
使用以下步骤扫描 Azure Databricks 以自动识别资产。 若要大致了解有关扫描的更多信息,请参阅 Microsoft Purview 中的扫描和引入。
转到“源”。
选择已注册的 Azure Databricks。
选择“+ 新建扫描”。
提供以下详细信息:
名称:输入扫描的名称。
通过集成运行时连接:选择默认的 Azure 集成运行时、托管 VNet IR 或创建的 Kubernetes 支持的自承载集成运行时。
凭据:选择用于连接到数据源的凭据。 请确保:
- 选择“访问令牌”、“托管标识”或“服务主体”。
- 注册扫描时,可以创建新的访问令牌或服务主体凭据。 有关详细信息,请参阅 Microsoft Purview 中用于源身份验证的凭据。
工作区 URL: 提供要扫描的工作区的 URL。
HTTP 路径:指定 Microsoft Purview 将连接到并执行扫描的 Databricks SQL 仓库的 HTTP 路径,例如
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
。 你可以在“Azure Databricks 工作区”->“SQL 仓库”->你的仓库 ->“连接详细信息”->“HTTP 路径”中找到它。世系提取:将世系提取切换到打开以提取已扫描资产的世系。
选择“测试连接”以验证设置。
选择“继续”。
对于“扫描触发器”,可以选择是设置一个计划还是运行一次扫描。
查看扫描,然后选择“保存并运行”。
扫描成功完成后,请参阅如何浏览和搜索资产。
若要查看现有扫描,请执行以下操作:
- 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
- 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
- 选择要查看结果的扫描。 窗格会显示先前的所有扫描运行,以及每次扫描运行的状态和指标。
- 选择运行 ID 以检查扫描运行详细信息。
若要编辑、取消或删除扫描:
转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
选择要管理的扫描。 然后,可以:
- 通过选择“编辑扫描”来编辑扫描。
- 通过选择“取消扫描运行”来取消正在进行的扫描。
- 通过选择“删除扫描”来删除扫描。
Nota
- 删除扫描不会删除以前扫描中创建的类别资产。
扫描 Azure Databricks 后,可以浏览统一目录或搜索统一目录,以查看资产详细信息和世系。
按源类型浏览时,将分别看到 Azure Databricks Unity Catalog 和 Azure Databricks 的两个条目。 前者包含 Unity Catalog 项目,包括元存储及其目录/架构/表/视图,而后者包含工作区项目。
在 Azure Databricks 工作区资产中,可以在“属性”选项卡下找到关联的 Unity Catalog,反之同样。
浏览特定 Azure Databricks 资产时,可以看到已捕获世系的笔记本。
转到“资产”->“世系”选项卡,可在适用时查看 Azure Databricks 笔记本资产或表/视图资产上的世系。
有关受支持的 Databricks Unity Catalog 世系应用场景,请参阅受支持的功能部分。 若要详细了解世系的常规信息,请参阅数据世系和世系用户指南。
Microsoft Purview 可以在 Unity Catalog 表/视图级别和列级别捕获世系。
笔记本执行后,Databricks 在更新其系统表中的世系信息时可能会有几分钟延迟。 在系统表更新后,Microsoft Purview 将能够提取世系。
现在已经注册了源,请按照以下指南来详细了解 Microsoft Purview 和你的数据: