本部分提供了一种结构化的分阶段方法,用于规划和设计生产就绪的企业Azure Databricks Lakehouse 平台。 它侧重于体系结构决策、设计模式和最佳做法,而不是分步实现说明。
概述
本部分可帮助管理员了解规划Azure Databricks帐户和生产工作区部署的核心原则和设计模式。
这是针对谁
本部分专为具有复杂治理、安全性和多工作区要求 的企业生产部署 而设计:
- 设计企业Azure Databricks部署的云架构师。
- 平台工程师计划生产湖屋基础设施。
- 为多个团队设计治理和存储策略的数据架构师。
- 正在评估适用于受管制环境的Azure Databricks的安全模式的安全团队。
- 负责为生产环境部署工作区集群的帐户管理员。
涵盖的内容
本部分重点介绍 设计和体系结构决策。 每个阶段都提供了设计模式、最佳做法和战略注意事项。 有关分步实现说明,请参阅每个阶段末尾链接的文档。
Well-Architected Lakehouse
每个阶段都包含与 Well-Architected Lakehouse 框架一致的最佳做法。 有关全面的架构原则,请参阅 数据湖仓架构:Databricks良好架构框架。
先决条件
在开始生产规划之前,请确保具备:
- 云帐户:具有适当管理员权限的活动云帐户。
- Azure Databricks 帐户:帐户管理员对Azure Databricks帐户控制台的访问权限。
- 要求收集:了解组织的安全、合规性和治理要求。
- 网络规划:网络体系结构计划,包括 CIDR 范围和连接要求。
- 标识提供者:SSO 集成的标识提供者详细信息(建议用于生产)。
规划阶段
本部分由 10 个阶段组成。 阶段可以重叠或并行执行,具体取决于组织的需求和现有基础结构。
阶段执行策略
- 顺序:按顺序完成各个阶段,以便进行全新项目部署。
- 并行:同时执行独立阶段(例如网络和标识设置)。
- 迭代:随着需求的发展,重新审视各个阶段(例如,添加工作区,扩展到新区域)。
| 阶段 | 说明 |
|---|---|
| 阶段 1:帐户 | 配置基础帐户管理和标识管理策略。 |
| 阶段 2:工作区策略 | 根据组织结构、安全要求和运营需求规划工作区体系结构。 |
| 阶段 3:Unity Catalog | 设计 Unity 目录治理体系结构,包括元存储模式、目录结构和访问控制模型。 |
| 阶段 4:网络 | 设计云网络基础结构以支持Azure Databricks计算和数据平面连接。 |
| 阶段 5:存储 | 为跨多个云的工作区存储和数据存储设计策略。 |
| 阶段 6:Delta Lake | 为 Lakehouse 设计 Delta Lake 存储体系结构和数据组织模式。 |
| 阶段 7:IaC | 设计 IaC 策略以自动部署和管理Azure Databricks资源。 |
| 阶段 8:计算 | 设计计算策略和工作区设置,以优化性能、成本和安全性。 |
| 阶段 9:可观测性 | 设计可观测性和监视策略,以确保卓越运营。 |
| 阶段 10:高可用性和 DR | 设计 HA 和 DR 策略,以确保业务连续性和复原能力。 |
从设计到实现
完成设计阶段后,使用以下命令实现体系结构:
基础结构部署
- 使用 Terraform 部署帐户级基础结构(例如工作区、网络、Unity 目录元存储)。
- 使用声明性自动化捆绑包部署数据和 AI 工作负载(例如作业、管道、笔记本、模型)。
- 通过 CI/CD 管道自动部署。
验证和测试
- 测试工作区连接和计算预配。
- 验证 Unity 目录权限和数据访问模式。
- 测试与数据源的网络连接。
- 验证可观测性仪表板和警报。
其他资源
文档
后续步骤
使用 阶段 1:帐户开始生产规划。