Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
本文概述了如何在 Microsoft Purview 中注册 Azure Databricks,以及如何向 Azure Databricks Unity Catalog 进行身份验证并与之交互。 有关 Microsoft Purview 的详细信息,请阅读简介文章。
支持的功能
扫描功能
| 元数据提取 | 完全扫描 | 增量扫描 | 限定范围的扫描 | 
|---|---|---|---|
| 是的 | 是的 | 是的 | 是的 | 
扫描 Azure Databricks Unity Catalog 时,Azure Purview 支持:
- 提取技术元数据,包括:- 元存储
- 目录
- 架构
- 表(含列)
- 视图(含列)
 
- 在笔记本运行期间获取表、视图、列之间的资产关系世系。
设置扫描时,可以选择扫描整个 Unity Catalog,也可以将扫描范围限制在一小部分目录。
其他功能
有关 分类、 策略和 实时视图,请参阅 受支持的功能列表。
注意
此连接器会从 Azure Databricks Unity Catalog 引入元数据。 若要扫描 Azure Databricks 工作区范围的元数据,请参阅 Azure Databricks Hive 元存储连接器。
已知的限制
- Databricks 笔记本名称显示为数字 ID,而不是 Microsoft Purview 中的可读名称。 这是 Databricks 的限制,因为笔记本名称不会在目录系统表中公开Unity。 
- 如果 Azure Databricks 的扫描结果超过 1 MB,并且 Azure Databricks 管理的 Blob 存储拒绝公用网络访问,则可能会遇到错误。 若要防止出现这种情况,请确保 Purview 有权访问要扫描的 Azure Databricks 工作区的内部 DBFS 存储位置。 可以 在此处了解有关此内容的详细信息。 
- 增量扫描仅适用于 Azure Databricks Unity目录数据源。 
- 作用域扫描仅适用于 Azure Databricks 数据源下的“Unity目录”选项。 
- 只能为 Azure Databricks 数据源下的“Unity目录”选项添加托管专用终结点。 
- 从数据源中删除对象后,后续扫描目前不会自动删除 Microsoft Purview 中的相应资产。 
- 有关与本机 Azure Databricks 世系相关的其他限制的详细信息,请参阅 Azure Databricks 文档。 
必备条件
- 你的 Azure 帐户必须具有有效订阅。 创建帐户。 
- 你必须具有有效的 Microsoft Purview 帐户。 
- 需要 Azure 密钥保管库,并授予 Microsoft Purview 访问机密的权限。 
- 需要数据源管理员和数据读取者权限才能在经典 Microsoft Purview 治理门户中注册和管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的访问控制。 
- 若要使用 Microsoft Purview 从 Azure Databricks 提取世系,必须满足以下先决条件: - 启用系统架构:必须在 Unity Catalog 中启用系统架构 system.access。 这是必需的,因为世系信息存储在系统表中,并且启用此架构允许访问这些表。 详细了解如何使用系统表监视使用情况。 
- 用户特权:用于扫描的用户帐户需要对以下系统表具有 SELECT 特权: - 系统访问表血统 
- 系统.访问.列血统 
 - 这些权限是必需的,因为直接从系统表中读取世系数据,并且无需访问,Microsoft Purview 无法检索世系信息。 
 
注册
本部分介绍如何使用经典 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Azure Databricks 工作区。
- 转到你的 Microsoft Purview 帐户。 
- 在左侧窗格中选择“数据映射”。 
- 选择“注册”。 
- 在“注册源”中,选择“Azure Databricks Unity Catalog”>“继续”。 
- 在“注册源(Azure Databricks Unity Catalog)”屏幕上执行以下操作: 
- 对于“名称”,请输入 Microsoft Purview 将列为数据源的名称。 - 对于元存储 ID,请提供要扫描的 Azure Databricks Unity Catalog 元存储的元存储 ID。 
- 从列表中选择连接。 
 
              
               
              
              
            
- 选择“完成”。
扫描
使用以下步骤扫描 Azure Databricks 以自动识别资产。 若要大致了解有关扫描的更多信息,请参阅 Microsoft Purview 中的扫描和引入。
- 转到“源”。 
- 选择已注册的 Azure Databricks。 
- 选择“+ 新建扫描”。 
- 提供以下详细信息: - 名称:输入扫描的名称。 
- 通过集成运行时进行连接:选择默认的 Azure 集成运行时、托管虚拟网络 IR 或创建的 Kubernetes 支持的自承载集成运行时。 
- 凭据:选择用于连接到数据源的凭据。 请确保: - 选择“ 访问令牌”、“ 托管标识”或 “服务主体”。
- 注册扫描时,可以创建新的访问令牌或服务主体凭据。 有关详细信息,请参阅 Microsoft Purview 中用于源身份验证的凭据。
 
- 工作区 URL: 提供要扫描的工作区的 URL。 
- HTTP 路径:指定 Databricks SQL 仓库的 HTTP 路径,Microsoft Purview 将连接到并执行扫描;例如 。 - /sql/1.0/endpoints/xxxxxxxxxxxxxxxx你可以在“Azure Databricks 工作区”->“SQL 仓库”->你的仓库 ->“连接详细信息”->“HTTP 路径”中找到它。
- 世系提取:将世系提取切换到打开以提取已扫描资产的世系。 
 
- 选择“测试连接”以验证设置。   
- 选择“继续”。 
- 对于“扫描触发器”,可以选择是设置一个计划还是运行一次扫描。 
- 查看扫描,然后选择“保存并运行”。 
扫描成功完成后,请参阅如何浏览和搜索资产。
查看扫描和扫描运行情况
若要查看现有扫描,请执行以下操作:
- 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
- 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
- 选择要查看结果的扫描。 窗格会显示先前的所有扫描运行,以及每次扫描运行的状态和指标。
- 选择运行 ID 以检查扫描运行详细信息。
管理扫描
若要编辑、取消或删除扫描:
- 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。 
- 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。 
- 选择要管理的扫描。 然后,可以: - 通过选择“编辑扫描”来编辑扫描。
- 通过选择“取消扫描运行”来取消正在进行的扫描。
- 通过选择“删除扫描”来删除扫描。
 
注意
- 删除扫描不会删除以前扫描中创建的类别资产。
常见问题 (FAQ)
Microsoft Purview 是否捕获了 Unity Catalog 的列级别世系?
Microsoft Purview 可以在 Unity Catalog 表/视图级别和列级别捕获世系。
我刚刚运行了我的笔记本,但 Microsoft Purview 没有提取世系。 发生了什么情况?
笔记本执行后,Databricks 在更新其系统表中的世系信息时可能会有几分钟延迟。 在系统表更新后,Microsoft Purview 将能够提取世系。
后续步骤
现在已经注册了源,请按照以下指南来详细了解 Microsoft Purview 和你的数据: