在 Microsoft Purview 中连接和管理 Azure Databricks Unity Catalog

本文概述了如何在 Microsoft Purview 中注册 Azure Databricks,以及如何向 Azure Databricks Unity Catalog 进行身份验证并与之交互。 有关 Microsoft Purview 的详细信息,请阅读简介文章

支持的功能

扫描功能

元数据提取 完全扫描 增量扫描 限定范围的扫描
是的 是的 是的 是的

扫描 Azure Databricks Unity Catalog 时,Azure Purview 支持:

  • 提取技术元数据,包括:
    • 元存储
    • 目录
    • 架构
    • 表(含列)
    • 视图(含列)
  • 在笔记本运行期间获取表、视图、列之间的资产关系世系。

设置扫描时,可以选择扫描整个 Unity Catalog,也可以将扫描范围限制在一小部分目录。

其他功能

查看一个表,其中列出了所有 受支持的功能

备注

此连接器会从 Azure Databricks Unity Catalog 引入元数据。 若要扫描 Azure Databricks 工作区范围的元数据,请参阅 Azure Databricks Hive 元存储连接器

已知的限制

  • Databricks 笔记本名称显示为数字 ID,而不是 Microsoft Purview 中的可读名称。 这是 Databricks 的限制,因为笔记本名称不会在目录系统表中公开Unity。

  • 如果 Azure Databricks 的扫描结果超过 1 MB,并且 Azure Databricks 管理的 Blob 存储拒绝公用网络访问,则可能会遇到错误。 若要防止出现这种情况,请确保 Purview 有权访问要扫描的 Azure Databricks 工作区的内部 DBFS 存储位置。 可以 在此处了解有关此内容的详细信息。

  • 增量扫描仅适用于 Azure Databricks Unity目录数据源。

  • 作用域扫描仅适用于 Azure Databricks 数据源下的“Unity目录”选项。

  • 只能为 Azure Databricks 数据源下的“Unity目录”选项添加托管专用终结点。

  • 从数据源中删除对象后,后续扫描目前不会自动删除 Microsoft Purview 中的相应资产。

  • 有关与本机 Azure Databricks 世系相关的其他限制的更多详细信息,请参阅 Azure Databricks 文档

必备条件

  • 若要使用 Microsoft Purview 从 Azure Databricks 提取世系,必须满足以下先决条件:

    • 启用系统架构:必须在 Unity Catalog 中启用系统架构 system.access。 这是必需的,因为世系信息存储在系统表中,并且启用此架构允许访问这些表。 详细了解如何使用系统表监视使用情况

    • 用户特权:用于扫描的用户帐户需要对以下系统表具有 SELECT 特权:

      • 系统访问表血统

      • 系统.访问.列血统

      这些权限是必需的,因为直接从系统表中读取世系数据,并且无需访问,Microsoft Purview 无法检索世系信息。

注册

本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Azure Databricks 工作区。

  1. 转到你的 Microsoft Purview 帐户。

  2. 在左侧窗格中选择“数据映射”。

  3. 选择“注册”。

  4. 在“注册源”中,选择“Azure Databricks Unity Catalog”>“继续”。

  5. 在“注册源(Azure Databricks Unity Catalog)”屏幕上执行以下操作:

  6. 对于“名称”,请输入 Microsoft Purview 将列为数据源的名称。

    1. 对于元存储 ID,请提供要扫描的 Azure Databricks Unity Catalog 元存储的元存储 ID。

    2. 从列表中选择连接。

注册 Azure Databricks Unity Catalog 源的屏幕截图。

  1. 选择“完成”。

扫描

提示

若要排查与扫描有关的任何问题,请执行以下操作:

  1. 确认已满足所有先决条件
  2. 查看扫描故障排除文档

使用以下步骤扫描 Azure Databricks 以自动识别资产。 若要大致了解有关扫描的更多信息,请参阅 Microsoft Purview 中的扫描和引入

  1. 转到“源”。

  2. 选择已注册的 Azure Databricks。

  3. 选择“+ 新建扫描”。

  4. 提供以下详细信息:

    1. 名称:输入扫描的名称。

    2. 通过集成运行时进行连接:选择默认的 Azure 集成运行时、托管虚拟网络 IR 或创建的 Kubernetes 支持的自承载集成运行时。

    3. 凭据:选择用于连接到数据源的凭据。 请确保:

    4. 工作区 URL: 提供要扫描的工作区的 URL。

    5. HTTP 路径:指定 Databricks SQL 仓库的 HTTP 路径,Microsoft Purview 将连接到并执行扫描;例如 。 /sql/1.0/endpoints/xxxxxxxxxxxxxxxx 你可以在“Azure Databricks 工作区”->“SQL 仓库”->你的仓库 ->“连接详细信息”->“HTTP 路径”中找到它。

    6. 世系提取:将世系提取切换到打开以提取已扫描资产的世系。

  5. 选择“测试连接”以验证设置。

    设置 Azure Databricks Unity Catalog 扫描的屏幕截图。

  6. 选择“继续”。

  7. 对于“扫描触发器”,可以选择是设置一个计划还是运行一次扫描。

  8. 查看扫描,然后选择“保存并运行”。

扫描成功完成后,请参阅如何浏览和搜索资产

查看扫描和扫描运行情况

若要查看现有扫描,请执行以下操作:

  1. 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
  2. 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
  3. 选择要查看结果的扫描。 窗格会显示先前的所有扫描运行,以及每次扫描运行的状态和指标。
  4. 选择运行 ID 以检查扫描运行详细信息

管理扫描

若要编辑、取消或删除扫描:

  1. 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。

  2. 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。

  3. 选择要管理的扫描。 然后,可以:

    • 通过选择“编辑扫描”来编辑扫描。
    • 通过选择“取消扫描运行”来取消正在进行的扫描。
    • 通过选择“删除扫描”来删除扫描。

备注

  • 删除扫描不会删除以前扫描中创建的类别资产。

常见问题 (FAQ)

Microsoft Purview 是否捕获了 Unity Catalog 的列级别世系?

Microsoft Purview 可以在 Unity Catalog 表/视图级别和列级别捕获世系。

我刚刚运行了我的笔记本,但 Microsoft Purview 没有提取世系。 发生了什么情况?

笔记本执行后,Databricks 在更新其系统表中的世系信息时可能会有几分钟延迟。 在系统表更新后,Microsoft Purview 将能够提取世系。

后续步骤

现在已经注册了源,请按照以下指南来详细了解 Microsoft Purview 和你的数据: