数据湖屋的互操作性和可用性

本文介绍互操作性和可用性支柱(指湖屋与用户和其他系统的交互)的体系结构原则。 湖屋的基本理念之一是为所有使用它的角色提供出色的用户体验,并与广泛的外部生态系统交互。

  • 互操作性是某个系统与其他系统协同工作和集成的能力。 它表示不同组件和产品(可能来自多个供应商)之间的交互,以及同一产品的过去和将来版本之间的交互。
  • 可用性衡量系统在多大程度上使用户能够安全、有效且高效地执行任务。

Databricks 的互操作性和可用性湖屋体系结构示意图。

遵循此支柱的原则有助于:

  • 实现一致、协作的用户体验。
  • 利用跨云协作优势。
  • 简化与湖屋的相互集成。
  • 降低训练和启用成本。

最终缩短价值实现时间。

互操作性和可用性原则

  1. 定义集成标准

    集成具有不同的方面,可以通过许多不同的方式来实现。 为避免过量开发工具和方法,必须定义最佳做法,并提供一个充分受支持的首选工具和连接器列表。

    关键的体系结构原则之一是模块化和松散耦合,而不是紧密集成。 这可以减少组件和工作负载之间的依赖性,有助于消除副作用,并支持按照不同的时标进行独立开发。 使用数据集及其架构作为协定。 将数据整理作业(例如将数据加载和转换到数据湖)等工作负载与增值作业(例如报告、仪表板和数据科学特征工程)分开。 根据数据格式、数据质量和数据生命周期指导原则定义中心数据目录。

  2. 使用开放接口和开放数据格式

    通常,解决方案是在只能通过特定系统访问数据的情况下开发的。 这可能导致局限于特定供应商的技术,但如果通过该系统访问数据会产生许可费,则它还可能成为严重的成本驱动因素。 使用开放数据格式和接口有助于避免这种情况。 它们还简化了与现有系统的集成,并开放了一个合作伙伴生态系统,这些合作伙伴已将其工具与湖屋集成。

    如果使用开源生态系统,例如用于数据科学的 Python 或 R,或用于数据访问和访问权限控制的 Spark 或 ANSI SQL,则可以更容易地找到参与项目的人员。 它还能简化与平台之间的来回迁移。

  3. 简化新的用例实现

    若要充分利用数据湖中的数据,用户必须能够在平台上轻松部署用例。 此工作始于围绕平台访问和数据管理的精益过程。 例如,自助访问平台有助于防止中心团队成为瓶颈。 共享环境和用于部署新环境的预定义蓝图确保平台可快速供任何业务用户使用。

  4. 确保数据一致性和可用性

    数据平台上的两个重要活动是数据发布和数据使用。 从发布的角度看,数据应作为产品提供。 发布者需要在考虑使用者的情况下遵循定义的生命周期,并且需要使用托管架构、说明等内容明确定义数据。

    提供语义一致的数据也非常重要,以便使用者可以轻松理解并正确组合不同的数据集。 此外,所有数据必须可供使用者通过具有适当策展的元数据和数据世系的中心目录轻松发现和访问。

下一篇:互操作性和可用性最佳做法

请参阅互操作性和可用性最佳做法