这组文章提供了使用 Azure Databricks 实现和操作湖仓的原则和最佳实践。
湖屋的 Databricks 架构良好的框架
设计良好的数据湖仓由七大支柱组成,这些支柱描述了在云中实现数据湖仓时需要关注的不同领域。
与云框架共享的支柱
以下五大支柱与 Azure Well-Architected Framework 中的支柱保持一致:
对于五个共享支柱,云框架的原则和最佳做法仍然适用。 精心构建的湖屋通过特定于湖屋的原则和最佳做法来扩展这些。
| 功能 / 特点 | Description |
|---|---|
| 卓越运营 | 用于在生产环境中使湖屋保持运行的所有操作流程。 |
| 安全性、隐私和符合性 | 保护 Azure Databricks 应用程序、客户工作负载和威胁中的客户数据。 |
| Reliability | 系统从故障中恢复并继续正常运行的能力。 |
| 性能效率 | 系统适应负载变化的能力。 |
| 成本优化 | 管理成本以便最大程度地提供实现的价值。 |
Lakehouse 的特定支柱
以下两大支柱解决了湖仓体系结构特有的关注点:
| 功能 / 特点 | Description |
|---|---|
| 数据和 AI 治理 | 确保数据和 AI 带来价值并支持业务战略的监督过程。 |
| 互操作性和可用性 | 湖屋与用户和其他系统交互的能力。 |
这两个特定于 Lakehouse 的支柱需要进一步的解释。
数据和 AI 治理
Lakehouse 在单个平台上统一数据仓库和 AI 用例。 这消除了传统上分离数据工程、分析、BI、数据科学和机器学习的数据孤岛。
统一的治理解决方案通过将治理控制合并到单个处理层来简化数据管理。 此方法可最大程度地减少数据副本,并提高保持合规性并检测潜在违规的能力。
互作性和可用性
集成式 Lakehouse 为所有角色和工作负载提供一致性的用户体验。 这种一致性可降低培训和载入成本,同时改进函数之间的协作。 相比之下,组装单独的数据工具可能会导致高实现成本、不一致的用户体验和有限的协作功能。
组织出于各种原因采用多云策略,包括合并、收购或独立业务部门决策。 多云 Lakehouse 可跨所有云提供商提供统一的用户体验。 这减少了系统激增,降低了处理数据的员工的技能要求。
现代业务流程要求系统跨组织边界协同工作。 Lakehouse 支持内部和外部合作伙伴系统之间的安全数据流,从而在联网业务环境中实现有效的协作。