什么是奖牌 Lakehouse 体系结构?

奖牌体系结构描述了一系列数据层,这些数据层表示 Lakehouse 中存储的数据质量。 Databricks 建议采用多层方法为企业数据产品生成单一事实源。 此体系结构保证了数据的原子性、一致性、隔离性和持久性,因为数据通过多层验证和转换,然后存储在针对高效分析而优化的布局中。 术语铜牌(原始)、银牌(已验证)和 金牌(已扩充)描述了每一层中的数据质量。

需要注意的是,此奖牌体系结构不会替换其他维度建模技术。 根据数据更新频率和性质以及数据下游用例,每一层中的架构和表都可能采用各种形式和标准化程度。

组织可以利用 Databricks 湖屋创建和维护经过验证的数据集,这些数据集可在整个公司范围内访问。 采用侧重于策展数据即产品的组织思维方式是成功生成数据湖屋的关键步骤。

将原始数据引入铜牌层

铜牌层包含未经验证的数据。 在铜牌层中引入的数据通常为:

  • 维持数据源的原始状态。
  • 以增量方式追加,并随时间推移而增长。
  • 可以是流式处理事务和批事务的任意组合。

以有效存储格式保留每个数据集的完整、未处理的历史记录,即可重新创建给定数据系统的任何状态。

可以将其他元数据(例如源文件名或记录处理时间数据)添加到引入的数据中,从而增强可发现性、对源数据集状态的描述以及在下游应用程序中优化性能。

对银牌层中的数据进行验证和删除重复

回想一下,尽管铜牌层包含几乎原始状态的整个数据历史记录,但银牌层表示已验证、已扩充的数据版本,可以信任下游分析。

虽然 Databricks 坚信由铜牌、银牌和金牌表驱动 Lakehouse 视觉,但单是高效实现银牌层就会立即解锁 Lakehouse 的许多潜在优势。

对于任何数据管道,银牌层可能包含多个表。

使用金牌层进行分析

此金牌数据通常经过高度优化和聚合,包含支持分析、机器学习和生产应用程序的数据。 虽然 Lakehouse 中的所有表都应具有重要用途,但金牌表表示已转换为知识的数据,而不仅仅是信息。

分析师在很大程度上依靠金牌表来承担其核心职责,与客户共享的数据很少存储在此级别之外。

这些表的更新会作为定期计划的生产工作负载的一部分予以完成,这有助于控制成本并支持建立数据新鲜度的服务级别协议 (SLA)。

虽然 Lakehouse 没有在企业数据仓库中可能遇到的死锁问题,但金牌表通常存储在单独的存储容器中,以便有助于避免数据请求中的云限制。

通常,由于在将数据写入金牌层之前要处理聚合、联接和筛选,因此用户应在金牌表中的数据上看到低延迟查询性能。