Unity 目录是内置于Azure Databricks中的统一治理层。 为某个工作区启用后,Unity Catalog 会在该工作区中的每一次数据交互背后自动运行:在您查询表时实施访问控制,在数据流转时跟踪数据沿袭,记录活动以供审计,等等。 您可以通过 Catalog Explorer、SQL、Azure Databricks CLI 和 REST API 处理由 Unity Catalog 管理的对象。
2023 年 11 月 9 日之后创建的所有Azure Databricks工作区会自动启用 Unity 目录。
- 若要验证是否已为工作区启用并正确设置 Unity 目录,请参阅 Unity 目录设置指南。
- 如果工作区是在 2023 年 11 月 9 日之前创建的,请参阅 将Azure Databricks工作区更新到 Unity 目录。
Unity Catalog 也可用作开源实施。 请参阅公告博客和公共Unity Catalog的GitHub存储库。
Unity Catalog 对象模型
在 Unity 目录中管理的每个资产都建模为 安全对象,该对象可向其授予用户、服务主体或组的权限。 数据资产(如表、视图、卷、函数和模型)遵循三级命名空间(catalog.schema.object)。 表和卷可以是 托管 的,此时 Unity Catalog 同时处理治理和底层文件存储生命周期;也可以是 外部 的,此时 Unity Catalog 仅处理治理。 其他对象(如存储凭据、外部位置、连接和共享)直接位于元存储下。
以下页面更详细地介绍了核心 Unity 目录概念和工作流。
| 主题 | 说明 |
|---|---|
| 安全对象 | 了解 Unity 目录层次结构中的每个对象类型以及权限如何应用于它们。 |
| 托管资产与外部资产 | 了解托管表、外部表和卷之间的区别,以及各自的适用场景。 |
| 要求和限制 | 查看计算要求、支持的文件格式、命名约束和已知限制。 |
Unity Catalog 功能
Unity 目录提供用于管理数据和 AI 环境的每个维度的内置工具。 以下主题介绍主要功能领域。
| 主题 | 说明 |
|---|---|
| 访问控制 | 管理谁可以使用特权、基于属性的策略、行和列筛选器以及工作区绑定来访问哪些内容。 |
| 数据发现 | 使用目录资源管理器(Azure Databricks UI)与安全对象进行交互,用于发现和管理 Unity 目录中注册的数据和 AI 资产。 |
| 数据世系 | 自动跟踪数据流和从源转换到最终视图和仪表板的方式。 |
| 审核 | 使用审核日志系统表维护所有数据访问和系统活动的完整记录。 |
| 数据分类 | 自动对目录中的敏感数据进行分类和标记。 |
| 数据共享 | 使用开放的 Delta Sharing 协议,在组织和云之间安全共享实时数据和 AI 资产。 |
开始
以下资源可帮助你开始使用 Unity 目录。 如果工作区是在 2023 年 11 月 9 日之后创建的,则会自动启用 Unity 目录。
| 主题 | 说明 |
|---|---|
| 开始使用 Unity Catalog | 检查是否已为工作区启用 Unity 目录,并配置第一个目录、架构和数据访问控制。 |
| 升级到 Unity Catalog | 了解如何升级尚未使用 Unity 目录的工作区。 |
其他资源
使用 Azure Databricks - Unity Catalog 最佳做法