Azure Databricks 组件

本文介绍需要了解的基本组件，以便有效地使用 Azure Databricks。

帐户和工作区

在 Azure Databricks 中，工作区是云中的 Azure Databricks 部署，它充当一个环境，可供团队用来访问 Databricks 资产。组织可以根据需求选择使用多个工作区或只使用一个工作区。

Azure Databricks 帐户表示可以包含多个工作区的单个实体。为 Unity Catalog 启用的帐户可用于管理用户及其对帐户中所有工作区的数据的集中访问。

计费：Databricks 单位 (DBU)

Azure Databricks 基于 Databricks 单位 (DBU) 计费，DBU 是每小时处理能力的单位（基于 VM 实例类型）。

请参阅 Azure Databricks 定价页。

身份验证和授权

本部分介绍管理 Azure Databricks 标识及其对 Azure Databricks 资产的访问时需要了解的概念。

用户

有权访问系统的唯一个人。用户标识由电子邮件地址表示。请参阅管理用户。

服务主体

用于作业、自动化工具和系统（例如脚本、应用和 CI/CD 平台）的服务标识。服务主体由应用程序 ID 表示。请参阅服务主体。

组

身份集合。组简化了标识管理，使分配对工作区、数据和其他安全对象的访问权限变得更加容易。所有 Databricks 标识都可以被分配为组的成员。请参阅组。

访问控制列表 (ACL)

附加到工作区、群集、作业、表或试验的权限列表。 ACL 指定向哪些用户或系统进程授予对对象的访问权限，以及允许对资产执行哪些操作。典型 ACL 中的每个条目都指定主题和操作。请参阅访问控制列表。

个人访问令牌 (PAT)

个人访问令牌是用于对 REST API 调用、技术合作伙伴连接和其他工具进行身份验证的字符串。请参阅使用 Azure Databricks 个人访问令牌（旧版）进行身份验证。

Microsoft Entra ID 令牌还可用于对 REST API 进行身份验证。

Azure Databricks 接口

本部分介绍用于访问 Azure Databricks 中资产的接口。

UI

Azure Databricks UI 是一个图形界面，用于与工作区文件夹及其包含的对象、数据对象和计算资源等功能进行交互。

Genie

Genie 是专为业务用户设计的简化Azure Databricks界面。它提供了一个统一入口，用于查看 AI/BI 仪表板，而无需了解技术性的工作区概念。请参阅 “使用 Genie 接口”。

REST API

Databricks REST API 提供用于修改或请求有关 Azure Databricks 帐户和工作区对象的信息的终结点。请参阅帐户参考和工作区参考。

SQL REST API

使用 SQL REST API 可以自动对 SQL 对象执行任务。请参阅 SQL API。

CLI

Databricks CLI 托管在 GitHub 上。 CLI 在 Databricks REST API 基础上构建。

数据管理

本部分介绍用于组织和治理 Azure Databricks 上的数据的工具和逻辑对象。请参阅 Azure Databricks 中的数据库对象。

统一目录

Unity Catalog 是 Azure Databricks 上数据和 AI 资产的统一治理解决方案，可跨 Databricks 工作区提供集中式访问控制、审核、世系和数据发现功能。请参阅什么是 Unity Catalog？。

图式

架构（也称为数据库）包含在目录中，并提供更精细的组织级别。它们包含数据库对象和 AI 资产，例如卷、表、函数和模型。请参阅 Azure Databricks 中的架构是什么？。

表

表组织和管理对结构化数据的访问。利用 Apache Spark SQL 和 Apache Spark API 查询数据表。请参阅 Azure Databricks 表。

查看

视图是派生自一个或多个表和视图的只读对象。视图保存针对表定义的查询。请参阅什么是视图？。

音量

卷表示在云对象存储位置中的逻辑存储单位，用于组织和控制对非表格数据的访问。 Databricks 建议使用卷来管理对云对象存储上非表格数据的所有访问。请参阅什么是 Unity Catalog 卷？。

Delta 表

默认情况下，在 Azure Databricks 中创建的所有表都是 Delta 表。 Delta 表基于 Delta Lake 开源项目，该项目是基于云对象存储的高性能 ACID 表存储的框架。 Delta 表将数据存储为云对象存储中的文件目录，并将表元数据注册到元存储中的目录和架构中。

元存储

Unity Catalog 提供一个帐户级别的元存储，用于注册关于数据、AI 的元数据信息，以及关于目录、模式和表的权限信息。请参阅 Metastore。

Azure Databricks 为尚未采用 Unity Catalog 的客户提供传统 Hive 元数据存储。请参阅 Hive 元存储表访问控制（旧版）。

目录浏览器

使用目录资源管理器可以浏览和管理数据和 AI 资产，包括架构（数据库）、表、模型、卷（非表格数据）、函数和已注册的 ML 模型。可以使用它来查找数据对象和所有者、了解表之间的数据关系，以及管理权限和共享。请参阅什么是目录资源管理器？。

DBFS 根

重要

使用 DBFS 根或 DBFS 装载存储和访问数据是已弃用的模式，Databricks 不建议这样做。而 Databricks 建议使用 Unity Catalog 来管理对所有数据的访问。请参阅什么是 Unity Catalog？。

默认情况下，DBFS 根是可供所有用户使用的存储位置。请参阅什么是 DBFS？。

计算管理

本部分介绍在 Azure Databricks 中运行计算时需要了解的概念。

集群

用于运行笔记本和作业的一组计算资源和配置。有两种类型的集群：通用和任务。请参阅计算。

使用 UI、CLI 或 REST API 创建通用群集。可手动终止和重启通用群集。多个用户可以共享此类群集，以协作的方式执行交互式分析。
当你在新的作业群集上运行作业时，Azure Databricks Job Scheduler 将创建一个作业群集，并在作业完成时终止该群集。无法重启作业群集。

池

一组空闲的随时可用的实例，可减少群集启动和自动缩放时间。附加到池时，群集会从池中分配其驱动节点和工作节点。请参阅池配置参考。

如果池中没有足够的空闲资源来满足群集的请求，则池会通过从实例提供程序分配新的实例进行扩展。终止附加的群集后，它使用的实例会返回到池中，可供其他群集重复使用。

Databricks Runtime

核心组件集，可在 Azure Databricks 管理的群集上运行。请参阅计算。 Azure Databricks 具有以下运行时：

Databricks Runtime 包括 Apache Spark，但还添加了许多可以显著提高大数据分析可用性、性能和安全性的组件与更新。
用于机器学习的 Databricks Runtime 建立在 Databricks Runtime 基础之上，提供与所有 Azure Databricks 工作区功能集成的预建机器学习基础结构。它包含多个流行库，其中包括 TensorFlow、Keras、PyTorch 和 XGBoost。

任务和管道 UI

作业和管道工作区 UI 提供进入作业、Lakeflow Spark 声明性管道和 Lakeflow Connect UI 的入口，这些工具可用于编排和调度工作流。

作业

用于协调和安排笔记本、库和其他任务的非交互式机制。请参阅 Lakeflow Jobs

Pipelines

Lakeflow Spark 声明性管道提供声明性框架，用于生成可靠、可维护且可测试的数据处理管道。请参阅 Lakeflow Spark 声明式管道。

工作负荷

工作负载是执行一项任务或一组任务所需的处理能力量。 Azure Databricks 识别两种类型的工作负载：数据工程（作业）和数据分析（通用）。

数据工程（自动）工作负载在 Azure Databricks 作业计划程序为每个工作负载创建的工作群集上运行。
数据分析（交互式）工作负载在通用群集上运行。交互式工作负载通常在 Azure Databricks 笔记本内运行命令。但是，在现有通用群集上运行作业也被视为交互式工作负载。

执行上下文

每种受支持编程语言的读取-评估-打印循环 (REPL) 环境的状态。支持的语言包括 Python、R、Scala 和 SQL。

数据工程

数据工程工具有助于在数据科学家、数据工程师、数据分析师和机器学习工程师之间实现协作。

工作区

工作区是用于访问所有 Azure Databricks 资产的环境。工作区将对象（笔记本、库、仪表板和试验）组织成文件夹，并提供对数据对象和计算资源的访问。

Notebook

基于 Web 的界面，用于创建可以包含可运行的命令、可视化效果和叙述文本的数据科学与机器学习工作流。请参阅 Databricks 笔记本。

库文件

可供在群集上运行的笔记本或作业使用的代码包。 Databricks 运行时包含许多库，你也可以上传自己的库。请参阅 “安装库”。

Git 文件夹（以前称为 Repos）

一个文件夹，其内容通过同步到远程 Git 存储库来一起进行共同版本控制。 Databricks Git 文件夹与 Git 集成，为项目提供源代码和版本控制。

AI 和机器学习

Databricks 提供集成的端到端环境和托管服务，用于开发和部署 AI 和机器学习应用程序。

机器学习运行时

为了帮助你开发 ML 和 AI 模型，Databricks 提供了用于机器学习的 Databricks Runtime，它使用预生成的机器学习和深度学习基础结构（包括最常见的 ML 和 DL 库）自动创建计算。它还具有内置的预配置 GPU 支持，包括驱动程序和支持库。可以在 Databricks Runtime 发行说明、版本和兼容性中了解有关最新运行时版本的信息。

实验

用于开发代理、LLM 应用程序和 ML 模型的 MLflow 集合。请参阅通过 MLflow 实验来组织训练运行。

功能

特征是机器学习模型的重要组成部分。特征存储能够在组织内实现特征共享和发现，还可以确保将相同的特征计算代码用于模型训练和推理。请参阅 Databricks Feature Store。

模型注册表

Databricks 提供 Unity Catalog 中的 MLflow 模型注册表的托管版本。在 Unity Catalog 中注册的模型将继承集中式访问控制、世系以及跨工作区的发现和访问。请参阅在 Unity Catalog 中管理模型生命周期。

数据仓库

数据仓库是指从多个来源收集和存储数据，以便可以快速访问这些数据以获取业务见解和报表。 Databricks SQL 是为现有数据湖带来数据仓库功能和性能的服务集合。请参阅数据仓库体系结构。

查询

查询是可用来与数据交互的有效 SQL 语句。可以使用平台内的 SQL 编辑器编写查询，也可以使用 SQL 连接器、驱动程序或 API 进行连接。请参阅访问和管理已保存的查询来详细了解如何使用查询。

SQL 仓库

运行 SQL 查询的计算资源。有三种类型的 SQL 仓库：经典、专业、无服务器。 Azure Databricks 建议在可用的情况下使用无服务器仓库。请参阅 SQL 仓库类型来比较每种仓库类型的可用功能。

查询历史记录

已执行的查询及其性能特征的列表。使用查询历史记录可以监视查询性能，从而可以帮助你识别瓶颈并优化查询运行时间。请参阅查询历史记录。

可视化

运行查询的结果的图形表示形式。请参阅 Databricks 笔记本和 SQL 编辑器中的可视化效果。

仪表板

数据可视化和评析的展示。可以使用仪表板自动向 Azure Databricks 帐户中的任何人发送报表。请参阅仪表板。还可以从笔记本创建仪表板。请参阅笔记本中的仪表板。

Last updated on 2026-06-15