高级体系结构

本文提供 Azure Databricks 体系结构的简要概述,包括其与 Azure 相结合的企业体系结构。

Databricks 对象

Azure Databricks 帐户 是用于管理整个组织的 Azure Databricks 的顶级构造。 在帐户级别,您可以管理:

  • 标识和访问权限:用户、组、服务主体和用户预配。
  • 工作区管理:跨多个区域创建、更新和删除工作区。

  • Unity Catalog 元数据存储管理:创建元数据存储并将其链接到工作区。

  • 使用情况管理:计费、合规性和策略。

账户可以包含多个工作区和 Unity Catalog 元数据存储。

  • 工作区 是用户运行计算工作负载(例如引入、交互式浏览、计划作业和 ML 训练)的协作环境。

  • Unity 目录元存储 是数据资产(如表和 ML 模型)的中心管理系统。 在三级命名空间下组织元存储中的数据:

<catalog-name>.<schema-name>.<object-name>

元存储附加到工作区。 可以将单个元存储链接到同一区域中的多个 Azure Databricks 工作区,为每个工作区提供相同的数据视图。 可在所有链接工作区中管理数据访问控制。

关系图:Databricks 对象层次结构

工作区体系结构

Azure Databricks 在控制平面和计算平面上运行。

  • 控制平面包括 Azure Databricks 在 Azure Databricks 帐户中管理的后端服务。 该 Web 应用程序位于控制平面中。

  • 计算平面是处理数据的位置。 根据所使用的计算,存在两种类型的计算平面。

    • 对于经典 Azure Databricks 计算,计算资源位于 Azure 订阅中称为经典计算平面的部分中。 这是指 Azure 订阅及其资源中的网络。

    若要详细了解经典计算和无服务器计算,请参阅 “计算”。

每个 Azure Databricks 工作区都有关联的存储帐户,称为工作区存储帐户。 工作区存储帐户位于 Azure 订阅中。

下图描述了整个 Azure Databricks 体系结构。

示意图:Databricks 体系结构

经典计算平面

在经典计算平面中,Azure Databricks 计算资源在你的 Azure 订阅中运行。 新的计算资源是在客户的 Azure 订阅中每个工作区的虚拟网络中创建的。

经典计算平面具有自然隔离,因为它在每个客户自己的 Azure 订阅中运行。 若要详细了解经典计算平面中的网络,请参阅经典计算平面网络

有关区域支持,请参阅 Azure Databricks 区域

工作区存储

创建工作区时,Azure Databricks 会在 Azure 订阅中创建帐户,用作工作区存储帐户。

工作区存储帐户包含:

  • 工作区系统数据:使用各种 Azure Databricks 功能(例如创建笔记本)时生成工作区系统数据。 此存储桶包括笔记本修订、作业运行详细信息、命令结果和 Spark 日志
  • Unity Catalog工作区目录:如果工作区自动启用Unity Catalog,则工作区存储帐户包含默认工作区目录。 工作区中的所有用户都可以在此目录的默认架构中创建资产。 请参阅 Unity 目录入门
  • DBFS(遗留版):DBFS 根目录和 DBFS 挂载点属于遗留版,可能在工作区中被禁用。 DBFS (Databricks 文件系统)是在命名空间下可访问的 dbfs:/ Azure Databricks 环境中的分布式文件系统。 DBFS 根和 DBFS 装载都位于dbfs:/命名空间中。 使用 DBFS 根或 DBFS 装载存储和访问数据是已弃用的模式,Databricks 不建议这样做。 有关详细信息,请参阅什么是 DBFS?

若要限制只能从授权的资源和网络访问工作区存储帐户,请参阅“为工作区存储帐户启用防火墙支持”。