使用 Azure Databricks 进行数据管理

数据管理 是策略、流程、角色和技术控制框架,可确保组织的数据在其整个生命周期内安全、可信和使用。 有效的数据治理使你能够维护数据质量、保护敏感信息、满足法规要求,并最大程度地提高数据资产的价值。

数据管理的关键组件包括:

  • 访问控制和安全性:实施精细的权限和安全措施,以保护数据免受未经授权的访问,同时启用适当的使用。
  • 数据世系和可观测性:跟踪数据流和转换,以了解数据来源、依赖项和使用模式。
  • 数据管理:确保数据准确、完整、一致且可靠,以便进行决策和分析。
  • 元数据管理:捕获和维护有关数据资产的信息,以提高可发现性和理解性。
  • 合规性实施:满足数据隐私、保留和使用情况的法规要求和组织策略。

本页重点介绍在 Azure Databricks 中使用 Unity 目录管理数据。 安全与合规性概述中介绍了相关的安全主题,例如身份验证、网络配置和数据加密。

Unity 目录数据管理模型

Unity 目录 是一个集中式数据目录,它以多种格式为结构化和非结构化数据提供治理。 它提供对 AI 资产(如机器学习模型)的精细访问控制和治理。 Unity 目录是 开源的 ,支持多个平台。 它已深入集成到 Azure Databricks 中。

Unity 目录是一个完整的数据治理解决方案,提供以下内容:

  • 数据统一:跨平台的所有数据和 AI 资产的统一视图,减少重复和蔓延。
  • 数据访问控制:用于确保数据可访问但仅适用于正确的用户的工具。
  • 数据可发现性:便于查找所需数据的工具。
  • 数据质量:用于确保在整个生命周期内准确、完整、一致且安全的数据的工具。
  • 数据协作和共享:不仅在组织内部,而且跨组织和平台边界安全地共享数据的工具。
  • 审核:捕获谁使用数据以及如何使用数据的工具。

本页介绍如何使用 Azure Databricks 中的 Unity 目录满足这些需求。

数据访问控制

为了确保用户仅访问他们应使用的数据,Unity 目录提供了分层特权模型,使你能够向用户、组和服务主体授予从帐户级别到表行和列对数据和 AI 资产的访问权限。 可以控制对存储在专用 Unity Catalog 存储中或其他平台(如云存储或数据库系统)中的资产的访问。关键在于,Unity Catalog 使用户能够从 Azure Databricks 内访问所有数据,无论数据存储在哪里,同时 Unity Catalog 控制他们的访问并跟踪他们的数据使用情况。

任务 DESCRIPTION
管理特权 了解 Unity 目录管理的安全对象以及如何控制对这些对象的访问。
管理标识 了解如何在 Unity Catalog 的上下文中管理身份。
精细访问控制 了解如何使用行筛选器和列掩码控制对表数据的访问。
管理对外部存储和数据平台的访问 了解如何使用 Unity 目录控制对云存储、外部数据平台和外部非数据服务的访问。
管理来自外部平台的访问 了解 Unity Catalog 如何管理使用 Apache Iceberg 或 Unity Catalog API 的外部平台对您的数据的访问。

数据可发现性

Azure Databricks 和 Unity 目录提供以下工具来帮助用户找到所需的数据:

功能 / 特点 DESCRIPTION
目录浏览器 使用资产名称和元数据(如注释和标记)浏览和搜索数据和 AI 资产。
目录浏览器 使用笔记本和 SQL 查询编辑器中内置的浏览器查找数据和 AI 资产。 请参阅 使用 Databricks 笔记本和文件编辑器 以及 编写查询,并在新 SQL 编辑器中探索数据
表格洞察 使用目录资源管理器中内置的 UI 查看 Unity 目录中任何表的最常见用户和查询。
数据世系 捕获和可视化数据流经组织的方式。
有关功能和模型世系,请参阅 功能治理和世系
实体关系图 (ERD) 显示已定义外键的表的关系。

另请参阅发现数据

数据协作和共享

Unity 目录允许用户在同一区域中的所有帐户工作区中协作处理相同的数据。 当你需要跨工作区区域、跨组织以及跨平台进行协作时,Unity 目录为以下共享工具提供了基础。

功能 / 特点 DESCRIPTION
增量共享 一个安全的数据共享平台,使你能够与组织外部的用户共享 Azure Databricks 中的数据和 AI 资产,无论这些用户是否使用 Databricks。

审计

审核日志 捕获有关谁访问给定数据集以及他们执行的操作的细致的详细信息。 Unity 目录添加 系统表,这是访问和查询帐户审核日志的最简单方法。

请参阅诊断日志参考

旧版 Azure Databricks 数据治理工具

Azure Databricks 还提供这些旧式治理功能。 Databricks 建议改用 Unity Catalog。

功能 / 特点 DESCRIPTION
表访问控制 一种旧数据治理模型,可让你以编程方式授予和撤销对由工作区的内置 Hive 元存储管理的对象的访问权限。
Azure Data Lake Storage 凭据传递 一个旧版数据治理功能,允许你使用登录 Azure Databricks 时使用的相同 Microsoft Entra ID 身份从 Azure Databricks 群集自动向 Azure 存储进行身份验证。

后续步骤