数据湖屋的性能效率

本文介绍“性能效率”支柱的体系结构原则,该效率指的是系统适应负载变化的能力。

Databricks 的性能效率湖屋体系结构图。

性能效率原则

  1. 使用无服务器体系结构

    无服务器基础结构不要求客户在云中操作和维护计算基础结构。 这消除了管理云基础结构的运营开销并降低了事务成本,因为托管服务在云规模运行。 它们还提供即时可用性、现成的安全性,需要的配置或管理最少。

  2. 根据性能要求设计工作负荷

    对于重复的工作负荷(例如数据工程管道),性能不应是事后之需。 数据必须符合以下条件:

    • 是从对象内存中高效读取的。
    • 是进行了有效转换的。
    • 是高效发布以供使用的。

    此外,大多数管道或消耗模式使用系统链。 若要实现最佳性能,必须考虑并选择整个链以获得最佳性能。

  3. 在开发范围内运行性能测试

    每个开发工作负荷都必须经过持续的性能测试。 测试可确保对代码库的任何更改都不会对工作负荷的性能产生负面影响。 建立运行测试的定期计划。 将测试作为计划事件的一部分或持续集成生成管道的一部分来运行。

    建立性能基线并确定工作负荷和支持基础结构的当前效率。 根据基线衡量性能可以提供改进策略,并确定应用程序是否满足业务目标。

    确定可能影响性能的瓶颈。 这些瓶颈可能是由代码错误或服务配置错误引起的。 通常情况下,随着负载的增加,瓶颈会变得越来越明显。

  4. 监视性能

    确保资源和服务始终可供访问,并且性能符合用户预期或工作负荷要求。 监视有助于识别瓶颈或资源不足的情况、优化配置并检测管道/工作负荷错误。

下一步:性能效率最佳做法

请参阅性能效率最佳做法