在 Microsoft Purview 中连接和管理 Azure Databricks Unity Catalog

本文概述了如何在 Microsoft Purview 中注册 Azure Databricks,以及如何向 Azure Databricks Unity Catalog 进行身份验证并与之交互。 有关 Microsoft Purview 的详细信息,请阅读简介文章

支持的功能

元数据提取 完全扫描 增量扫描 限定范围扫描 分类 标记 访问策略 沿袭 数据共享 实时视图
No No No No

扫描 Azure Databricks Unity Catalog 时,Azure Purview 支持:

  • 元存储
  • 目录
  • 架构
  • 表(含列)
  • 视图(含列)

设置扫描时,可以选择扫描整个 Unity Catalog,也可以将扫描范围限制在一小部分目录。

注意

此连接器会从 Azure Databricks Unity Catalog 引入元数据。 若要扫描 Azure Databricks 工作区范围的元数据,请参阅 Azure Databricks Hive 元存储连接器

已知的限制

  • 从数据源中删除对象后,后续扫描目前不会自动删除 Microsoft Purview 中的相应资产。

必备条件

  • 你的 Azure 帐户必须具有有效订阅。 创建帐户

  • 你必须具有有效的 Microsoft Purview 帐户

  • 需要 Azure 密钥保管库,并授予 Microsoft Purview 访问机密的权限

  • 需要拥有数据源管理员和数据读取者权限才能在 Microsoft Purview 治理门户中注册和管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的访问控制

  • 为了扫描 Azure Databricks Unity Catalog,Microsoft Purview 将连接到工作区中的 SQL 仓库,并使用个人访问令牌进行身份验证。 你需要拥有一个已启用 Unity Catalog 的 Azure Databricks 工作区,并将其附加到要扫描的元存储。 在 Azure Databricks 工作区中:

    • 生成个人访问令牌,并将其作为机密存储在 Azure 密钥保管库中。

      • 对于要引入 Microsoft Purview 的所有对象,用户至少需要对表/视图具有 SELECT 权限,对对象的目录具有 USE CATALOG 权限,对对象的架构具有 USE SCHEMA 权限。

      • 若要扫描 Unity Catalog 元存储中的所有对象,请使用具有元存储管理员角色的用户身份。 有关详细信息,请参阅管理 Unity Catalog 中的特权以及Unity Catalog 特权和安全对象

      • 对于分类,用户还需要对表/视图拥有 SELECT 权限才能检索示例数据。

注册

本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Azure Databricks 工作区。

  1. 转到你的 Microsoft Purview 帐户。

  2. 在左侧窗格中选择“数据映射”。

  3. 选择“注册”。

  4. 在“注册源”中,选择“Azure Databricks”>“继续”。

  5. 在“注册源(Azure Databricks)”屏幕上执行以下操作:

    1. 对于“名称”,请输入 Microsoft Purview 将列为数据源的名称。

    2. 对于“Azure 订阅”和“Databricks 工作区名称”,请从下拉列表中选择要扫描的订阅和工作区。 系统会自动填充 Databricks 工作区 URL。

    3. 从列表中选择连接。

    注册 Azure Databricks 源的屏幕截图。

  6. 选择“完成”。

扫描

提示

若要排查与扫描有关的任何问题,请执行以下操作:

  1. 确认已满足所有先决条件
  2. 查看扫描故障排除文档

使用以下步骤扫描 Azure Databricks 以自动识别资产。 若要大致了解有关扫描的更多信息,请参阅 Microsoft Purview 中的扫描和引入

  1. 转到“源”。

  2. 选择已注册的 Azure Databricks。

  3. 选择“+ 新建扫描”。

  4. 提供以下详细信息:

    1. 名称:输入扫描的名称。

    2. 提取方法:指示从 Hive 元存储或 Unity Catalog 中提取元数据。 选择“Unity Catalog”。

    3. 通过集成运行时连接:选择默认的 Azure 集成运行时、托管 VNet IR 或创建的 Kubernetes 支持的自承载集成运行时。

    4. 凭据:选择用于连接到数据源的凭据。 请确保:

      • 在创建凭据时选择“访问令牌身份验证”。
      • 在相应的框中,提供你在先决条件部分创建的个人访问令牌的机密名称。

      有关详细信息,请参阅 Microsoft Purview 中用于源身份验证的凭据

    5. HTTP 路径:指定 Microsoft Purview 将连接到并执行扫描的 Databricks SQL 仓库的 HTTP 路径,例如 /sql/1.0/endpoints/xxxxxxxxxxxxxxxx。 你可以在“Azure Databricks 工作区”->“SQL 仓库”->你的仓库 ->“连接详细信息”->“HTTP 路径”中找到它。

  5. 单击“测试连接”以验证设置。

    设置 Azure Databricks Unity Catalog 扫描的屏幕截图。

  6. 选择“继续”。

  7. 在“限定扫描范围”页面中,选择要扫描的目录。

    设置 Azure Databricks 扫描范围的屏幕截图。

  8. 选择一个扫描规则集进行分类。 可以选择系统默认项、现有的自定义规则集,或以内联方式创建新规则集。 有关详细信息,请查看分类一文。

  9. 对于“扫描触发器”,可以选择是设置一个计划还是运行一次扫描。

  10. 查看扫描,然后选择“保存并运行”。

扫描成功完成后,请参阅如何浏览和搜索资产

查看扫描和扫描运行情况

若要查看现有扫描,请执行以下操作:

  1. 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
  2. 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
  3. 选择要查看结果的扫描。 窗格会显示先前的所有扫描运行,以及每次扫描运行的状态和指标。
  4. 选择运行 ID 以检查扫描运行详细信息

管理扫描

若要编辑、取消或删除扫描:

  1. 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。

  2. 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。

  3. 选择要管理的扫描。 然后,可以:

    • 通过选择“编辑扫描”来编辑扫描。
    • 通过选择“取消扫描运行”来取消正在进行的扫描。
    • 通过选择“删除扫描”来删除扫描。

注意

  • 删除扫描不会删除以前扫描中创建的类别资产。

浏览和搜索资产

扫描 Azure Databricks 源后,可以浏览数据目录搜索数据目录,以查看资产详细信息。

按源类型浏览时,将分别看到 Azure Databricks Unity Catalog 和 Azure Databricks 的两个条目。 前者包含 Unity Catalog 项目,包括元存储及其目录/架构/表/视图,而后者包含工作区。

按源类型浏览资产的屏幕截图。

在 Azure Databricks 工作区资产中,可以在“属性”选项卡下找到关联的 Unity Catalog,反之同样。

查找与 Azure Databricks 源关联的 Unity Catalog 的屏幕截图。

后续步骤

现在你已经注册了源,请按照以下指南来详细了解 Microsoft Purview 和你的数据: