数据指南

Databricks 数据智能平台使整个组织中的数据从业者能够使用共享、安全管理的数据资产和工具协作和生产数据解决方案。

本文旨在帮助你确定用例的正确起点。

Azure Databricks 上的许多任务都需要提升的权限。 许多组织将这些提升的权限限制为少量用户或团队。 本文澄清了大多数工作区用户可以完成的操作与仅限特权用户的操作之间的区别。

工作区管理员可以帮助你确定是否应请求对资产的访问权限或请求提升的权限。

查找和访问数据

本部分简要概述了有助于发现可用的数据资产的任务。 其中大多数任务假定管理员已配置数据资产的权限。 请参阅配置数据访问

功能区 资源
数据发现 有关数据发现任务的更详细概述,请参阅 发现数据
目录 目录是 Unity 目录数据治理模型中的顶级对象。 使用 目录资源管理器 查找表、视图和其他数据资产。 请参阅浏览数据库对象
连接的存储 如果有权访问计算资源,可以使用内置命令浏览连接存储中的文件。 请参阅 浏览存储和查找数据文件
上传本地文件 默认情况下,用户有权从本地计算机(如 CSV)上传小型数据文件。 请参阅使用文件上传创建或修改表

处理数据

本部分概述了常见数据任务以及用于执行这些任务的工具。

对于描述的所有任务,用户必须具有对工具、计算资源、数据和其他工作区项目的适当权限。 请参阅 配置数据访问配置工作区和基础结构

功能区 资源
数据库对象 除了表和视图之外,Azure Databricks 还使用其他安全数据库对象(例如卷)安全地管理数据。 请参阅 Azure Databricks 中的数据库对象
数据权限 Unity Catalog 控制所有已启用的工作区中的读取和写入操作。 必须具有足够的权限才能完成这些操作。 请参阅 Unity 目录 中的安全对象。
ETL 提取、转换和加载(ETL)工作负载是 Apache Spark 和 Azure Databricks 最常见的用途之一,大多数平台都为 ETL 构建和优化了功能。 请参阅 教程:使用 DLT 生成 ETL 管道
查询
仪表板和见解
  • 借助 AI/BI 仪表板,可以在 UI 中轻松提取和可视化见解。 请参阅 仪表板
引入
  • Lakeflow Connect 从常用外部系统引入数据。
  • 自动加载程序可与 DLT 或结构化流式处理作业一起使用,以增量方式从云对象存储引入数据。 请参阅什么是自动加载程序?
  • 可以使用 DLT 或结构化流式处理从消息队列(包括 Kafka)引入数据。 请参阅查询流式处理数据
变革 Azure Databricks 使用常见的语法和工具进行转换,这些转换的复杂性从 SQL CTAS 语句到准实时流式处理应用程序不等。 有关数据转换的概述,请参阅 什么是 Azure Databricks 上的数据转换?
AI 和机器学习 Databricks Data Intelligence Platform 提供了一套用于数据科学、机器学习和 AI 应用程序的工具。 请参阅 Databricks 上的 AI 和机器学习

:::

配置数据访问权限

大多数 Azure Databricks 工作区依赖于工作区管理员或其他 Power 用户来配置与外部数据源的连接,并根据团队成员身份、区域或角色强制实施对数据资产的权限。 本部分概述了配置和控制数据访问时常见的需要提升权限的任务。

注释

在请求提升的权限以配置与数据源的新连接之前,请确认你是否只是缺少对现有连接、目录或表的权限。 如果数据源不可用,请与组织协商以了解如何向工作区添加新数据。

功能区 资源
统一目录
  • Unity 目录支持 Databricks 数据智能平台中内置的数据治理功能。 请参阅什么是 Unity Catalog?
  • Databricks 帐户管理员、工作区管理员和元存储管理员具有管理用户的 Unity 目录数据权限的默认权限。 请参阅在 Unity Catalog 中管理权限
连接和访问
共享
  • Delta Sharing 是 Azure Databricks 安全数据共享平台的核心,其中包括 Databricks Marketplace 和数据清理室。 请参阅与其他组织中的用户安全地共享数据和 AI 资产
  • 管理员可以创建新目录。 目录提供数据隔离的高级抽象,可以绑定到单个工作区,也可以跨帐户中的所有工作区共享。 请参阅 创建目录.- AI/BI 仪表板鼓励所有者在发布时嵌入其凭据,确保查看者可以从共享结果中获取见解。 有关详细信息,请参阅 共享仪表板

配置工作区和基础结构

本部分概述了与管理工作区资产和基础结构关联的常见任务。 广泛定义,工作区资产包括:

  • 计算资源:计算资源包括全用途交互式群集、SQL 仓库、作业群集和管道计算。 用户或工作负荷必须有权连接到正在运行的计算资源,才能处理指定的逻辑。

    注释

    无权连接到任何计算资源的用户在 Azure Databricks 上具有非常有限的功能。

  • 平台工具:Databricks Data Intelligence Platform 提供了一套专为不同用例和角色定制的工具,例如笔记本、Databricks SQL 和马赛克 AI。 管理员可以自定义包括默认行为、可选功能和许多这些工具的用户访问权限的设置。

  • 项目:项目包括笔记本、查询、仪表板、文件、库、管道和作业。 工件包含用户编写的代码和配置,以便对其数据执行所需的操作。

重要

默认情况下,创建工作区资产的用户被分配为 owner 角色。 对于大多数资产,所有者可以向工作区中的任何其他用户或组授予权限。

为了确保数据和代码安全,Databricks 建议为所有部署到生产工作区的项目和计算资源配置所有者角色。

功能区 资源
工作区权利 工作区权利包括基本工作区访问权限、对 Databricks SQL 的访问权限和不受限制的群集创建。 请参阅管理权限
计算资源访问和策略
  • Azure Databricks 上的大多数成本用于计算资源。 控制哪些用户能够配置、部署、启动和使用各种资源对于控制成本至关重要。 请参阅连接至综合和作业计算
  • 计算策略与工作区计算权利协同工作,以确保授权用户仅按照指定的配置规则部署计算资源。 请参阅创建和管理计算策略
  • 管理员可以配置默认行为、数据访问策略和对 SQL 仓库的用户访问权限。 请参阅 SQL 仓库管理员设置
平台工具 使用管理控制台配置从自定义工作区外观到启用或禁用产品和功能的行为。 请参阅管理工作区
工作区访问控制列表 (ACL) 工作区访问控制列表(ACL)控制用户和组如何与工作区资产进行交互,包括计算资源、代码项目和作业。 请参阅访问控制列表

生产化工作负载

所有 Azure Databricks 产品都是为了加快从开发到生产的道路,以及规模和稳定性而构建的。 本部分简要介绍了建议将工作负载引入生产环境的工具套件。

功能区 资源
ETL 管道 DLT 管道提供了用于生成和生产 ETL 管道的声明性语法。 请参阅 DLT
统筹 作业允许你使用依赖项、触发器和计划定义复杂的工作流。 请参阅使用 Databricks 作业进行编排
CI/CD 借助 Databricks 资产捆绑包,可以轻松地跨工作区管理和部署数据、资产和项目。 请参阅什么是 Databricks 资产捆绑包?