使用 Unity Catalog 进行数据治理

项目
04/07/2024

本指南展示了如何在 Azure Databricks 中管理数据和 AI 对象访问。有关 Azure Databricks 安全性的信息，请参阅安全指南。 Azure Databricks 通过 Unity Catalog 和 Delta Sharing 提供集中的数据和 AI 治理。

使用 Unity Catalog 集中访问控制

Unity Catalog 是 Databricks 平台数据和 AI 的细化治理解决方案。它通过提供一个集中管理和审核数据及 AI 资产访问的位置，来帮助简化数据和 AI 资产的安全性和治理。

在大多数帐户中，创建工作区时，默认情况下会启用 Unity Catalog。有关详细信息，请参阅 Unity Catalog 的自动启用。

有关如何有效使用 Unity Catalog 的讨论，请参阅 Unity Catalog 最佳做法。

使用 Unity Catalog 跟踪数据世系

可以使用 Unity Catalog，通过以任何语言对 Azure Databricks 群集或 SQL 仓库执行的查询来捕获运行时数据世系。世系捕获级别低至列，包括与查询相关的笔记本、工作流和仪表板。若要了解详细信息，请参阅使用 Unity Catalog 捕获和查看数据世系。

使用目录资源管理器发现数据

Databricks 目录资源管理器提供一个用户界面用于探索和管理数据及 AI 资产，包括架构（数据库）、表、卷（非表格数据）和注册的 ML 模型，以及资产权限、数据所有者、外部位置和凭据。可以使用目录资源管理器中的“见解”选项卡查看在 Unity Catalog 中注册的任何表的最近最频繁的查询和用户。

Delta Sharing 是由 Databricks 开发的开放协议，用于与其他组织或组织内的其他团队进行安全数据和 AI 资产共享，而不论他们使用哪种计算平台。

配置审核日志记录

Databricks 允许访问 Databricks 用户所执行活动的审核日志，使企业能够监视详细的 Databricks 使用模式。

借助 Unity Catalog，你可以使用系统表（公共预览版）轻松访问和查询帐户的操作数据，包括审核日志、可计费使用情况和世系。

配置标识

每个良好的数据治理案例都要从强大的标识基础讲起。若要了解如何在 Azure Databricks 中以最佳方式配置标识，请参阅标识最佳做法。

旧式数据治理解决方案

Azure Databricks 还提供了以下旧式治理模型：

表访问控制是一种旧式数据治理模型，可用于以编程方式授予和撤销对工作区内置 Hive 元存储管理的对象的访问权限。 Databricks 建议使用 Unity Catalog 而不是表访问控制。 Unity Catalog 提供一个集中位置来管理和审核帐户中多个工作区的数据访问，从而简化了数据的安全性和治理。
Azure Data Lake Storage 凭据直通身份验证（旧）也是一种旧式数据治理功能，它允许你使用你用于登录到 Azure Databricks 的 Microsoft Entra ID（以前称为 Azure Active Directory）标识自动从 Azure Databricks 群集向 Azure 存储进行身份验证。 Databricks 建议改用 Unity Catalog。