Azure Databricks 概念
本文介绍为有效地使用 Azure Databricks,你需要了解的基本概念。
帐户和工作区
在 Azure Databricks 中,工作区是云中的 Azure Databricks 部署,它充当一个环境,可供团队用来访问 Databricks 资产。 组织可以根据需求选择使用多个工作区或只使用一个工作区。
Azure Databricks 帐户表示可以包含多个工作区的单个实体。 为 Unity Catalog 启用的帐户可用于管理用户及其对帐户中所有工作区的数据的集中访问。
计费:Databricks 单位 (DBU)
Azure Databricks 基于 Databricks 单位 (DBU) 计费,DBU 是每小时处理能力的单位(基于 VM 实例类型)。
请参阅 Azure Databricks 定价页。
身份验证和授权
本部分介绍管理 Azure Databricks 标识及其对 Azure Databricks 资产的访问时需要了解的概念。
用户
有权访问系统的唯一个人。 用户标识由电子邮件地址表示。 请参阅管理用户。
服务主体
用于作业、自动化工具和系统(例如脚本、应用和 CI/CD 平台)的服务标识。 服务主体由应用程序 ID 表示。 请参阅管理服务主体。
组
标识集合。 组简化了标识管理,使分配对工作区、数据和其他安全对象的访问权限变得更加容易。 所有 Databricks 标识都可以被分配为组的成员。 请参阅管理组。
访问控制列表 (ACL)
附加到工作区、群集、作业、表或试验的权限的列表。 ACL 指定向哪些用户或系统进程授予对对象的访问权限,以及允许对资产执行哪些操作。 典型 ACL 中的每个条目都指定主题和操作。 请参阅访问控制列表。
个人访问令牌 (PAT)
个人访问令牌是用于对 REST API 调用、技术合作伙伴连接和其他工具进行身份验证的字符串。 请参阅 Azure Databricks 个人访问令牌身份验证。
Microsoft Entra ID 令牌还可用于对 REST API 进行身份验证。
Azure Databricks 接口
本部分介绍用于访问 Azure Databricks 中资产的接口。
UI
Azure Databricks UI 是一个图形界面,用于与工作区文件夹及其包含的对象、数据对象和计算资源等功能进行交互。
REST API
Databricks REST API 提供用于修改或请求有关 Azure Databricks 帐户和工作区对象的信息的终结点。 请参阅帐户参考和工作区参考。
SQL REST API
使用 SQL REST API 可以自动对 SQL 对象执行任务。 请参阅 SQL API。
CLI
Databricks CLI 托管在 GitHub 上。 CLI 在 Databricks REST API 基础上构建。
数据管理
本部分介绍用于存储馈入机器学习算法的、在执行分析时所依据的数据的逻辑对象。 此外,其中还介绍了用于浏览和管理数据对象的平台内 UI。
Unity Catalog
Unity Catalog 是 Azure Databricks 上数据和 AI 资产的统一治理解决方案,可跨 Databricks 工作区提供集中式访问控制、审核、世系和数据发现功能。 请参阅什么是 Unity Catalog?。
DBFS 根
重要
使用 DBFS 根或 DBFS 装载存储和访问数据是已弃用的模式,Databricks 不建议这样做。 而 Databricks 建议使用 Unity Catalog 来管理对所有数据的访问。 请参阅什么是 Unity Catalog?。
默认情况下,DBFS 根是可供所有用户使用的存储位置。 请参阅什么是 DBFS?。
目录资源管理器
使用目录资源管理器可以浏览和管理数据和 AI 资产,包括架构(数据库)、表、模型、卷(非表格数据)、函数和已注册的 ML 模型。 可以使用它来查找数据对象和所有者、了解表之间的数据关系,以及管理权限和共享。 请参阅什么是目录资源管理器?。
数据库
在组织方式上可让用户轻松访问、管理和更新的数据对象(例如表、视图和函数)集合。 请参阅 Azure Databricks 中的架构是什么?
Table
结构化数据的表示形式。 利用 Apache Spark SQL 和 Apache Spark API 查询表。 请参阅什么是表?。
Delta 表
默认情况下,在 Azure Databricks 中创建的所有表都是 Delta 表。 Delta 表基于 Delta Lake 开源项目,该项目是基于云对象存储的高性能 ACID 表存储的框架。 Delta 表将数据存储为云对象存储中的文件目录,并将表元数据注册到目录和架构中的元存储。
详细了解品牌名称中包含“Delta”的技术。
元存储
用于存储数据仓库中各种表和分区的所有结构信息的组件,包括列和列类型信息、读取和写入数据所需的序列化器和去序列化器,以及用于存储数据的相应文件。 请参阅元存储
每个 Azure Databricks 部署都有一个中心 Hive 元存储,供所有需要保存表元数据的群集访问。 也可以选择使用现有的外部 Hive 元存储。
计算管理
本部分介绍在 Azure Databricks 中运行计算时需要了解的概念。
群集
用于运行笔记本和作业的一组计算资源和配置。 有两种类型的群集:通用和作业。 请参阅计算。
- 使用 UI、CLI 或 REST API 创建通用群集。 可手动终止和重启通用群集。 多个用户可以共享此类群集,以协作的方式执行交互式分析。
- 当你在新的作业群集上运行作业时,Azure Databricks 作业计划程序将创建一个作业群集,并在作业完成时终止该群集 。 无法重启作业群集。
池
一组空闲的随时可用的实例,可减少群集启动和自动缩放时间。 附加到池时,群集会从池中分配其驱动程序节点和工作器节点。 请参阅池配置参考。
如果池中没有足够的空闲资源来满足群集的请求,则池会通过从实例提供程序分配新的实例进行扩展。 终止附加的群集后,它使用的实例会返回到池中,可供其他群集重复使用。
Databricks Runtime
核心组件集,可在 Azure Databricks 管理的群集上运行。 请参阅计算。 Azure Databricks 具有以下运行时:
- Databricks Runtime 包括 Apache Spark,但还添加了许多可以显著提高大数据分析可用性、性能和安全性的组件与更新。
- 用于机器学习的 Databricks Runtime 建立在 Databricks Runtime 基础之上,提供与所有 Azure Databricks 工作区功能集成的预建机器学习基础结构。 它包含多个流行库,其中包括 TensorFlow、Keras、PyTorch 和 XGBoost。
工作流
工作流工作区 UI 提供作业和 DLT 管道 UI 的条目,这些 UI 是可用于协调和计划工作流的工具。
作业
用于协调和安排笔记本、库和其他任务的非交互式机制。 请参阅计划和协调工作流
管道
增量实时表管道提供一个声明性框架,用于生成可靠、可维护且可测试的数据处理管道。 请参阅什么是增量实时表?。
工作负荷
工作负载是执行一项任务或一组任务所需的处理能力量。 Azure Databricks 识别两种类型的工作负载:数据工程(作业)和数据分析(通用)。
- 数据工程(自动)工作负载在 Azure Databricks 作业计划程序为每个工作负载创建的工作群集上运行。
- 数据分析(交互式)工作负载在通用群集上运行。 交互式工作负载通常在 Azure Databricks 笔记本内运行命令。 但是,在现有通用群集上运行作业也被视为交互式工作负载 。
执行上下文
每种受支持编程语言的读取-评估-打印循环 (REPL) 环境的状态。 支持的语言包括 Python、R、Scala 和 SQL。
数据工程
数据工程工具有助于在数据科学家、数据工程师、数据分析师和机器学习工程师之间实现协作。
工作区
工作区是用于访问所有 Azure Databricks 资产的环境。 工作区将对象(笔记本、库、仪表板和试验)组织成文件夹,并提供对数据对象和计算资源的访问。
笔记本
基于 Web 的界面,用于创建可以包含可运行的命令、可视化效果和叙述文本的数据科学与机器学习工作流。 请参阅 Databricks 笔记本简介。
库
可对群集上运行的笔记本或作业使用的代码包。 Databricks 运行时包含许多库,你也可以上传自己的库。 请参阅库。
Git 文件夹(以前称为 Repos)
一个文件夹,其内容通过同步到远程 Git 存储库来一起进行共同版本控制。 Databricks Git 文件夹 与 Git 集成,为项目提供源代码和版本控制。
AI 和机器学习
Databricks 提供集成的端到端环境和托管服务,用于开发和部署 AI 和机器学习应用程序。
机器学习运行时
为了帮助你开发 ML 和 AI 模型,Databricks 提供了用于机器学习的 Databricks Runtime,它使用预生成的机器学习和深度学习基础结构(包括最常见的 ML 和 DL 库)自动创建计算。 它还具有内置的预配置 GPU 支持,包括驱动程序和支持库。 可以在 Databricks Runtime 发行说明、版本和兼容性中了解有关最新运行时版本的信息。
试验
MLflow 运行的集合,用于训练机器学习模型。 请参阅使用 MLflow 试验组织训练运行。
功能
特征是机器学习模型的重要组成部分。 特征存储能够在组织内实现特征共享和发现,还可以确保将相同的特征计算代码用于模型训练和推理。 请参阅特征工程和服务。
模型注册表
Databricks 提供 Unity Catalog 中的 MLflow 模型注册表的托管版本。 在 Unity Catalog 中注册的模型将继承集中式访问控制、世系以及跨工作区的发现和访问。 请参阅在 Unity Catalog 中管理模型生命周期。
数据仓库
数据仓库是指从多个来源收集和存储数据,以便可以快速访问这些数据以获取业务见解和报表。 Databricks SQL 是为现有数据湖带来数据仓库功能和性能的服务集合。 请参阅什么是 Azure Databricks 上的数据仓库?。
查询
查询是可用来与数据交互的有效 SQL 语句。 可以使用平台内的 SQL 编辑器编写查询,也可以使用 SQL 连接器、驱动程序或 API 进行连接。 请参阅访问和管理已保存的查询来详细了解如何使用查询。
SQL 仓库
运行 SQL 查询的计算资源。 有两种类型的 SQL 仓库:“经典”和“专业”。 请参阅 SQL 仓库类型来比较每种仓库类型的可用功能。
查询历史记录
已执行的查询及其性能特征的列表。 使用查询历史记录可以监视查询性能,从而可以帮助你识别瓶颈并优化查询运行时间。 请参阅查询历史记录。
可视化效果
运行查询的结果的图形表示形式。 请参阅 Databricks 笔记本中的可视化效果。
仪表板
数据可视化效果和注释的表示形式。 可以使用仪表板自动向 Azure Databricks 帐户中的任何人发送报表。 使用 Databricks 助手帮助根据自然语言提示生成可视化效果。 还可以从笔记本创建仪表板。 请参阅笔记本中的仪表板。 有关旧版仪表板,请参阅旧版仪表板。