Unity Catalog 入门指南

Unity Catalog 是 Azure Databricks 中数据和 AI 的统一治理层。 它为各个工作区提供集中式访问控制、数据沿袭、审计和数据发现功能。 请参阅什么是 Unity Catalog?

2023 年 11 月 9 日之后创建的所有Azure Databricks工作区会自动启用 Unity 目录。 如果工作区已启用 Unity 目录,请按照设置教程进行操作。 如果工作区早于 Unity 目录或在创建时未启用,请按照升级指南操作。

Guide 说明
Unity 目录设置指南 对于已启用 Unity Catalog 的工作区。 配置管理员角色、用户、计算、权限和目录。
升级到 Unity Catalog 对于尚未使用 Unity Catalog 的现有工作区。 启用 Unity 目录并迁移数据。

扩展 Unity 目录设置

设置工作区后,可以将更高级的治理功能应用于数据和 AI 工作流。

数据分类

数据分类 使用 AI 代理自动扫描目录并标记敏感数据,例如 PII、财务信息和凭据。 分类后,标记可以直接与 ABAC 策略集成,使你可以根据数据实际包含的内容应用治理控制,而不是按对象管理访问对象。

数据分类结果

数据沿袭

数据世系可自动捕获数据如何在表、笔记本、作业和管道之间流动,精确到列级别。 可以跟踪任何列的源,查看下游资产所依赖的内容,并在进行架构更改之前了解架构更改的全部影响。

列级数据世系

有关 Unity 目录功能的完整概述,请参阅什么是 Unity 目录? 有关治理最佳做法,请参阅 Unity 目录最佳做法