Azure Databricks 体系结构概述

本文提供 Azure Databricks 体系结构的简要概述,包括其与 Azure 相结合的企业体系结构。

高级体系结构

Azure Databricks 在控制平面和计算平面上运行。

  • 控制平面包括 Azure Databricks 在 Azure Databricks 帐户中管理的后端服务。 该 Web 应用程序位于控制平面中。

  • 计算平面是处理数据的位置。

    • 对于经典 Azure Databricks 计算,计算资源位于 Azure 订阅中称为经典计算平面的部分中。 这是指 Azure 订阅及其资源中的网络。

每个 Azure Databricks 工作区都有关联的存储帐户,称为工作区存储帐户。 工作区存储帐户位于 Azure 订阅中。

下图描述了整个 Azure Databricks 体系结构。

示意图:Databricks 体系结构

经典计算平面

在经典计算平面中,Azure Databricks 计算资源在你的 Azure 订阅中运行。 新计算资源是在客户 Azure 订阅内每个工作区的虚拟网络中创建的。

经典计算平面有天然的隔离,因为它在每个客户专属的 Azure 订阅中运行。 若要详细了解经典计算平面中的网络,请参阅经典计算平面网络

有关区域支持,请参阅 Azure Databricks 区域

工作区存储帐户

创建工作区时,Azure Databricks 会在 Azure 订阅中创建帐户,用作工作区存储帐户。

工作区存储帐户包含:

  • 工作区系统数据: 当你使用各种 Azure Databricks 功能(例如,创建笔记本)时,会生成工作区系统数据。 此存储桶包括笔记本修订、作业运行详细信息、命令结果和 Spark 日志
  • DBFS: DBFS(Databricks 文件系统)是 Azure Databricks 环境中的分布式文件系统,可在dbfs:/命名空间下访问。 DBFS 根和 DBFS 装载都位于dbfs:/命名空间中。 使用 DBFS 根或 DBFS 装载存储和访问数据是已弃用的模式,Databricks 不建议这样做。 有关详细信息,请参阅什么是 DBFS?
  • Unity 目录工作区目录: 如果工作区自动为 Unity Catalog 启用,则工作区存储帐户包含默认的工作区目录。 工作区中的所有用户都可以在此目录的默认架构中创建资产。 请参阅设置和管理 Unity Catalog