Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
本文概述了如何注册 Azure Databricks,以及如何在 Microsoft Purview 中对 Azure Databricks Unity 目录进行身份验证和交互。 有关 Microsoft Purview 的详细信息,请参阅 介绍性文章。
支持的功能
扫描功能
| 元数据提取 | 完全扫描 | 增量扫描 | 限定范围的扫描 |
|---|---|---|---|
| 是的 | 是的 | 是的 | 否 |
扫描 Azure Databricks Unity 目录时,Microsoft Purview支持:
- 提取技术元数据,包括:
- 元存储
- 目录
- 模式
- 包括这些列的表
- 视图(含列)
- 在笔记本运行期间获取有关表、视图和列之间的资产关系的血缘信息。
设置扫描时,可以选择扫描整个Unity目录,或将扫描范围限定为目录子集。
其他功能
有关 分类、策略 和 实时视图,请查看支持功能的列表。
注意事项
此连接器从 Azure Databricks Unity 目录引入元数据。 若要扫描Azure Databricks 工作区范围的元数据,请参阅 Azure Databricks Hive 元存储连接器。
已知的限制
在 Microsoft Purview 中,Databricks 笔记本名称显示为数字 ID,而不是可读名称。 存在此限制是因为 Databricks 不会在Unity目录系统表中公开笔记本名称。
如果来自 Azure Databricks 的扫描结果超过 1 MB,并且 Azure Databricks 托管 Blob 存储拒绝公共网络访问,则可能会遇到错误。 为了防止此问题,请确保 Microsoft Purview 能够访问正在扫描的 Azure Databricks 工作区的内部 DBFS 存储位置。 若要了解详细信息,请参阅 JDBC 中的云提取。
增量扫描仅适用于 Azure Databricks Unity 目录数据源。
作用域扫描仅适用于Azure Databricks数据源下的Unity目录选项。
只能为 Azure Databricks 数据源 下的 Unity Catalog 选项添加托管专用终结点。
从数据源中删除对象时,后续扫描不会自动删除 Microsoft Purview 中的相应资产。
在中国区域的 Azure Databricks 工作区中,没有可用的数据血缘信息。 存在此限制是因为 Azure Databricks 系统表在此区域不受支持。 Microsoft Purview 使用这些表来提取世系,因此无法检索该区域中的世系。
如果不希望列说明显示在 Microsoft Purview 中,请将 Databricks 表列注释设置为空字符串。
有关本机 Azure Databricks 数据血缘相关的其他限制的详细信息,请参阅 Azure Databricks 文档。
必备条件
必须具有具有活动订阅的 Azure 帐户。 创建帐户。
必须具有有效的 Microsoft Purview 帐户。
你需要一个Azure Key Vault,并授予Microsoft Purview权限以访问机密。
需要数据源管理员和数据读取者权限才能在经典Microsoft Purview治理门户中注册并管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的
Access control。
若要使用 Microsoft Purview 从 Azure Databricks 提取世系,必须满足以下先决条件:
启用系统模式:Unity 目录中必须启用系统模式 system.access。 之所以存在此要求,是因为世系信息存储在系统表中,启用此架构允许访问这些表。 详细了解如何使用系统表监视使用情况。
用户权限:
用于扫描的用户帐户需要对以下系统表具有 SELECT 特权:
- 系统.访问.表_血统
- 系统。access.column_lineage
这些权限是必需的,因为血缘数据是从系统表直接读取的,并且如果没有必要的访问权限,Microsoft Purview无法检索血缘信息。
注册
本节介绍如何在 Microsoft Purview 中注册 Azure Databricks 工作区时使用 经典 Microsoft Purview 管理门户。
访问 Microsoft Purview 帐户。
在左侧窗格中选择“数据映射”。
选择“注册”。
在 Register sources 中,选择 Azure Databricks Unity 目录>Continue。
在 注册源 (Azure Databricks Unity 目录) 界面上,执行以下操作:
对于 Name,请输入Microsoft Purview将列为数据源的名称。
对于 Metastore ID,请提供要扫描的 Azure Databricks Unity Catalog 的元存储 ID。
从列表中选择集合。
注册 Azure Databricks Unity Catalog 源的屏幕截图。
- 选择“完成”。
扫描
使用以下步骤来扫描 Azure Databricks 并自动识别资产。 有关扫描的详细信息,请参阅 Microsoft Purview 中的扫描和引入。
转到源。
选择已注册的 Azure Databricks。
选择+ 新建扫描。
提供以下详细信息:
名称:输入扫描的名称。
通过集成运行时进行连接:选择创建的默认 Azure 集成运行时、托管虚拟网络 IR 或 Kubernetes 支持的自承载集成运行时。
凭据:选择用于连接到数据源的凭据。 请确保:
- 选择 Access Token、Managed Identity 或 Service Principal。
- 进行扫描注册时,可以创建新的访问令牌或服务主体凭据。 有关详细信息,请参阅 credentials for source authentication in Microsoft Purview。
工作区 URL: 提供要扫描的工作区的 URL。
-
HTTP 路径:指定 Databricks SQL Warehouse 的 HTTP 路径,Microsoft Purview 连接到并执行扫描;例如 。
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx可以在 Azure Databricks 工作区 -> SQL Warehouses -> 您的仓库 -> 连接详细信息 -> HTTP 路径中找到它。
-
HTTP 路径:指定 Databricks SQL Warehouse 的 HTTP 路径,Microsoft Purview 连接到并执行扫描;例如 。
数据血缘提取:将数据血缘提取切换到开启以获取已扫描资源的数据血缘。
选择“测试连接”以验证设置。
选择“继续”。
对于“扫描触发器”,可以选择是设置一个计划还是运行一次扫描。
查看您的扫描结果,然后选择“保存并运行”。
扫描成功完成后,请参阅如何 浏览和搜索资产。
查看扫描和扫描运行情况
若要查看现有扫描,请执行以下操作:
- 转到Microsoft Purview门户。 在左窗格中,选择“数据映射”。
- 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
- 选择包含你想查看的结果的扫描。 窗格会显示先前的所有扫描运行,以及每次扫描运行的状态和指标。
- 选择运行 ID 以检查扫描运行详细信息。
管理扫描
若要编辑、取消或删除扫描:
转到Microsoft Purview门户。 在左窗格中,选择“数据映射”。
选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
选择要管理的扫描。 然后,你可以:
- 要编辑扫描,请选择“编辑扫描”选项。
- 通过选择“取消扫描运行”来取消正在进行的扫描。
- 通过选择“删除扫描”来删除扫描。
注意事项
- 删除扫描不会删除从以前扫描创建的目录资产。
常见问题 (FAQ)
Microsoft Purview 是否从 Unity 目录中捕获列级世系?
Microsoft Purview 捕获Unity目录表和视图级别以及列级别的世系。
为什么Microsoft Purview 在运行笔记本后没有提取世系?
运行笔记本后,Databricks 可能需要几分钟时间来更新其系统表中的世系信息。 Microsoft Purview 可以在系统表更新后提取世系。
后续步骤
注册源后,使用以下指南了解更多关于 Microsoft Purview 和你的数据的信息: