共用方式為

使用 Azure Databricks 进行数据管理

本页概述了如何在 Azure Databricks 中使用 Unity 目录管理数据。

注释

本页重点介绍数据的治理。 安全性和合规性中介绍了相关的安全主题,如以下内容:

  • 身份验证和访问控制
  • 网络配置
  • 数据安全与加密

什么是 Unity Catalog?

Unity Catalog 是一个集中式数据目录,它为多个平台上采用多种格式的表格和非结构化数据提供精细的数据访问控制,并治理机器学习模型等人工智能资产。 它还包括发现数据、跟踪使用情况、捕获世系和监视数据质量所需的工具。

Unity 目录是 开源的 ,支持多个平台。 它已深入集成到 Azure Databricks 中。

请参阅什么是 Unity Catalog?

Unity 目录数据管理模型

使用 Unity 目录进行数据治理具有以下特性:

  • 数据统一:跨平台的所有数据和 AI 资产的统一视图,减少重复和蔓延。
  • 数据访问控制:用于确保数据易于访问的工具,但仅适用于正确的用户。
  • 数据可发现性:便于查找所需数据的工具。
  • 数据质量:用于确保在整个生命周期内准确、完整、一致且安全的数据的工具。
  • 数据协作和共享:不仅在组织内部,而且跨组织和平台边界安全地共享数据。
  • 审核:捕获谁使用数据以及如何使用数据的工具。

本页介绍如何使用 Azure Databricks 中的 Unity 目录满足这些需求。

数据访问控制

为了确保用户仅访问他们应使用的数据,Unity 目录提供了分层特权模型,使你能够向用户、组和服务主体授予从帐户级别到表行和列对数据和 AI 资产的访问权限。 可以控制对存储在专用 Unity Catalog 存储中或其他平台(如云存储或数据库系统)中的资产的访问。关键在于,Unity Catalog 使用户能够从 Azure Databricks 内访问所有数据,无论数据存储在哪里,同时 Unity Catalog 控制他们的访问并跟踪他们的数据使用情况。

任务 DESCRIPTION
管理特权 了解 Unity 目录管理的安全对象以及如何控制对这些对象的访问。
管理基于属性的访问控制(ABAC) 了解如何在 Unity Catalog 中使用 ABAC 控制对数据的访问。
管理标识 了解如何在 Unity Catalog 的上下文中管理身份。
精细访问控制 了解如何使用行筛选器和列掩码控制对表数据的访问。
管理对外部存储和数据平台的访问 了解如何使用 Unity 目录控制对云存储、外部数据平台和外部非数据服务的访问。
管理来自外部平台的访问 了解 Unity Catalog 如何管理使用 Apache Iceberg 或 Unity Catalog API 的外部平台对您的数据的访问。

数据可发现性

Azure Databricks 和 Unity 目录提供以下工具来帮助用户找到所需的数据:

功能 / 特点 DESCRIPTION
目录浏览器 使用资产名称和元数据(如注释和标记)浏览和搜索数据和 AI 资产。
目录浏览器 使用笔记本和 SQL 查询编辑器中内置的浏览器查找数据和 AI 资产。 请参阅 使用 Databricks 笔记本和文件编辑器 以及 编写查询,并在新 SQL 编辑器中探索数据
表格洞察 使用目录资源管理器中内置的 UI 查看 Unity 目录中任何表的最常见用户和查询。
数据世系 捕获和可视化数据流经组织的方式。
有关功能和模型世系,请参阅 功能治理和世系
实体关系图 (ERD) 显示已定义外键的表的关系。

另请参阅发现数据

数据协作和共享

Unity 目录允许用户在同一区域中的所有帐户工作区中协作处理相同的数据。 当你需要跨工作区区域、跨组织以及跨平台进行协作时,Unity 目录为以下共享工具提供了基础。

功能 / 特点 DESCRIPTION
增量共享 一个安全的数据共享平台,使你能够与组织外部的用户共享 Azure Databricks 中的数据和 AI 资产,无论这些用户是否使用 Databricks。

审计

审核日志 捕获有关谁访问给定数据集以及他们执行的操作的细致的详细信息。 Unity 目录添加 系统表,这是访问和查询帐户审核日志的最简单方法。

请参阅诊断日志参考

旧版 Azure Databricks 数据治理工具

Azure Databricks 还提供这些旧式治理功能。 Databricks 建议改用 Unity Catalog。

功能 / 特点 DESCRIPTION
表访问控制 一种旧数据治理模型,可让你以编程方式授予和撤销对由工作区的内置 Hive 元存储管理的对象的访问权限。
Azure Data Lake Storage 凭据传递 一个旧版数据治理功能,允许你使用登录 Azure Databricks 时使用的相同 Microsoft Entra ID 身份从 Azure Databricks 群集自动向 Azure 存储进行身份验证。

后续步骤