数据湖屋体系结构:Databricks 架构良好的框架
本数据湖屋体系结构文章系列提供有关使用 Azure Databricks 实现和操作湖屋的原则和最佳做法。
湖屋的 Databricks 架构良好的框架
架构良好的湖屋由 7 大支柱组成,这些支柱描述在云中实现数据湖屋时的不同关注领域:
数据治理
确保数据带来价值并支持业务战略的监督过程。
互操作性和可用性
湖屋与用户和其他系统交互的能力。
卓越运营
用于在生产环境中使湖屋保持运行的所有操作流程。
安全性、隐私和符合性
保护 Azure Databricks 应用程序、客户工作负载和客户数据免受威胁。
可靠性
系统从故障中恢复并继续正常运行的能力。
性能效率
系统适应负载变化的能力。
成本优化
管理成本以便最大程度地提供实现的价值。
架构良好的湖屋将 Microsoft Azure 架构良好的框架扩展到 Databricks Data Intelligence 平台并共享支柱“卓越运营”、“安全性”(属于“安全性、隐私性与合规性”)、“可靠性”、“性能效率”和“成本优化”。
对于这五大支柱,云框架的原则和最佳做法仍然适用于湖屋。 架构良好的湖屋通过特定于湖屋的、对于构建有效且高效湖屋非常重要的原则和最佳做法扩展了上述原则和最佳做法。
湖屋体系结构中的数据治理以及互操作性和可用性
支柱“数据治理”以及“互操作性和可用性”涵盖了湖屋特有的考虑因素。
数据治理封装了为安全管理组织内的数据资产而实现的策略和做法。 湖屋的一个最重要方面是集中化数据治理:湖屋将数据仓库和 AI 用例统一到单个平台。 这样可以通过消除传统上隔离和复杂化数据工程、分析、BI、数据科学和机器学习的数据孤岛来简化新式数据堆栈。 为了简化数据治理,湖屋为数据、分析和 AI 提供了统一的治理解决方案。 通过最大程度地减少数据副本并迁移到可以同时运行所有数据治理控制的单一数据处理层,可以提高保持合规和检测数据外泄的机会。
湖屋的另一个重要宗旨是为所有使用它的角色提供出色的用户体验,并与广泛的外部生态系统交互。 Azure 已经包含各种数据工具,可用于执行数据驱动型企业所需的大多数任务。 但是,必须正确组合这些工具才能提供所有功能,而且每个服务提供不同的用户体验。 此方法可能导致较高的实现成本,并且通常不提供与原生湖屋平台相同的用户体验:用户受到工具之间的不一致和缺乏协作功能的限制,并且通常需要经历复杂的流程才能访问系统(从而访问数据)。
另一端的集成湖屋在所有工作负载中提供一致的用户体验,因而提高了可用性。 这可以降低培训和入职流程成本,并改善功能之间的协作。 此外,随着时间的推移,会自动添加新功能,以进一步改善用户体验,而无需投资开发内部资源和占用预算。
多云方法可以是公司深思熟虑的策略,也可以是合并和收购或独立业务部门选择不同云提供商的结果。 在这种情况下,使用多云湖屋可跨所有云提供统一的用户体验。 这减少了整个企业中系统激增的情况,进而减少了参与数据驱动型任务的员工的技能和培训要求。
最后,在具有跨公司业务流程的联网世界中,系统必须尽可能无缝地协同工作。 互操作性程度是此处的一个至关重要的标准,作为任何企业的核心资产,最新数据必须在内部和外部合作伙伴系统之间安全流动。