什么是 Unity Catalog?

Unity 目录是内置于Azure Databricks中的统一治理层。 为某个工作区启用后,Unity Catalog 会在该工作区中的每一次数据交互背后自动运行:在您查询表时实施访问控制,在数据流转时跟踪数据沿袭,记录活动以供审计,等等。 您可以通过 Catalog Explorer、SQL、Azure Databricks CLI 和 REST API 处理由 Unity Catalog 管理的对象。

2023 年 11 月 9 日之后创建的所有Azure Databricks工作区会自动启用 Unity 目录。

Unity Catalog 也可用作开源实施。 请参阅公告博客和公共Unity Catalog的GitHub存储库

Unity Catalog 对象模型

在 Unity 目录中管理的每个资产都建模为 安全对象,该对象可向其授予用户、服务主体或组的权限。 数据资产(如表、视图、卷、函数和模型)遵循三级命名空间(catalog.schema.object)。 表和卷可以是 托管 的,此时 Unity Catalog 同时处理治理和底层文件存储生命周期;也可以是 外部 的,此时 Unity Catalog 仅处理治理。 其他对象(如存储凭据、外部位置、连接和共享)直接位于元存储下。

Unity Catalog 对象模型图

以下页面更详细地介绍了核心 Unity 目录概念和工作流。

主题 说明
安全对象 了解 Unity 目录层次结构中的每个对象类型以及权限如何应用于它们。
托管资产与外部资产 了解托管表、外部表和卷之间的区别,以及各自的适用场景。
要求和限制 查看计算要求、支持的文件格式、命名约束和已知限制。

Unity Catalog 功能

Unity 目录提供用于管理数据和 AI 环境的每个维度的内置工具。 以下主题介绍主要功能领域。

主题 说明
访问控制 管理谁可以使用特权、基于属性的策略、行和列筛选器以及工作区绑定来访问哪些内容。
数据发现 使用目录资源管理器(Azure Databricks UI)与安全对象进行交互,用于发现和管理 Unity 目录中注册的数据和 AI 资产。
数据世系 自动跟踪数据流和从源转换到最终视图和仪表板的方式。
审核 使用审核日志系统表维护所有数据访问和系统活动的完整记录。
数据分类 自动对目录中的敏感数据进行分类和标记。
数据共享 使用开放的 Delta Sharing 协议,在组织和云之间安全共享实时数据和 AI 资产。

开始

以下资源可帮助你开始使用 Unity 目录。 如果工作区是在 2023 年 11 月 9 日之后创建的,则会自动启用 Unity 目录。

主题 说明
开始使用 Unity Catalog 检查是否已为工作区启用 Unity 目录,并配置第一个目录、架构和数据访问控制。
升级到 Unity Catalog 了解如何升级尚未使用 Unity 目录的工作区。

其他资源