本文提供 Azure Databricks 体系结构的简要概述,包括其与 Azure 相结合的企业体系结构。
Databricks 对象
Azure Databricks 帐户 是用于管理整个组织的 Azure Databricks 的顶级构造。 在帐户级别,您可以管理:
- 标识和访问权限:用户、组、服务主体和用户预配。
工作区管理:跨多个区域创建、更新和删除工作区。
Unity Catalog 元数据存储管理:创建元数据存储并将其链接到工作区。
使用情况管理:计费、合规性和策略。
账户可以包含多个工作区和 Unity Catalog 元数据存储。
工作区 是用户运行计算工作负载(例如引入、交互式浏览、计划作业和 ML 训练)的协作环境。
Unity 目录元存储 是数据资产(如表和 ML 模型)的中心管理系统。 在三级命名空间下组织元存储中的数据:
<catalog-name>.<schema-name>.<object-name>
元存储附加到工作区。 可以将单个元存储链接到同一区域中的多个 Azure Databricks 工作区,为每个工作区提供相同的数据视图。 可在所有链接工作区中管理数据访问控制。
工作区体系结构
Azure Databricks 在控制平面和计算平面上运行。
控制平面包括 Azure Databricks 在 Azure Databricks 帐户中管理的后端服务。 该 Web 应用程序位于控制平面中。
计算平面是处理数据的位置。 根据所使用的计算,存在两种类型的计算平面。
- 对于经典 Azure Databricks 计算,计算资源位于 Azure 订阅中称为经典计算平面的部分中。 这是指 Azure 订阅及其资源中的网络。
若要详细了解经典计算和无服务器计算,请参阅 “计算”。
每个 Azure Databricks 工作区都有关联的存储帐户,称为工作区存储帐户。 工作区存储帐户位于 Azure 订阅中。
下图描述了整个 Azure Databricks 体系结构。
经典计算平面
在经典计算平面中,Azure Databricks 计算资源在你的 Azure 订阅中运行。 新的计算资源是在客户的 Azure 订阅中每个工作区的虚拟网络中创建的。
经典计算平面具有自然隔离,因为它在每个客户自己的 Azure 订阅中运行。 若要详细了解经典计算平面中的网络,请参阅经典计算平面网络。
有关区域支持,请参阅 Azure Databricks 区域。
工作区存储
创建工作区时,Azure Databricks 会在 Azure 订阅中创建帐户,用作工作区存储帐户。
工作区存储帐户包含:
- 工作区系统数据:使用各种 Azure Databricks 功能(例如创建笔记本)时生成工作区系统数据。 此存储桶包括笔记本修订、作业运行详细信息、命令结果和 Spark 日志
- Unity Catalog工作区目录:如果工作区自动启用Unity Catalog,则工作区存储帐户包含默认工作区目录。 工作区中的所有用户都可以在此目录的默认架构中创建资产。 请参阅 Unity 目录入门。
- DBFS(遗留版):DBFS 根目录和 DBFS 挂载点属于遗留版,可能在工作区中被禁用。 DBFS (Databricks 文件系统)是在命名空间下可访问的
dbfs:/
Azure Databricks 环境中的分布式文件系统。 DBFS 根和 DBFS 装载都位于dbfs:/
命名空间中。 使用 DBFS 根或 DBFS 装载存储和访问数据是已弃用的模式,Databricks 不建议这样做。 有关详细信息,请参阅什么是 DBFS?。
若要限制只能从授权的资源和网络访问工作区存储帐户,请参阅“为工作区存储帐户启用防火墙支持”。