配置经典 Azure Databricks 作业的最佳做法

了解有关经典 Azure Databricks 作业可受益的功能和配置的常规建议。

经典作业要求创建和定制符合数据转换方案需求的计算资源、策略和性能选项的特定配置。 有关配置计算资源大小和类型的具体建议因工作负载而异。 在开始配置经典工作流之前,请查看这些最佳做法,以避免不必要的附加成本或不良行为。

注释

结构化流式处理工作流具有特定配置建议。 请参阅结构化流式处理的生产注意事项

最佳做法

为常见用例启用 Photon 加速

Databricks 建议启用 Photon 加速、使用最新的 Databricks Runtime 版本并使用为 Unity Catalog 配置的计算。

使用标准访问模式(以前共享访问模式)

Databricks 建议对作业使用标准访问模式。 请参阅 访问模式

使用群集策略

Databricks 建议工作区管理员为作业定义群集策略,并为有权配置作业的所有用户强制实施这些策略。

群集策略允许工作区管理员设置成本控制并限制用户的配置选项。 有关配置群集策略的详细信息,请参阅 创建和管理计算策略

Azure Databricks 为作业配置了默认策略。 管理员可以将此策略提供给其他工作区用户使用。 请参阅 作业计算

使用自动缩放

配置自动缩放,以便长时间运行的任务可以在作业执行期间动态添加和移除工作节点。 请参阅 “启用自动缩放”。

使用池缩短群集启动时间

利用计算池,可以从云提供商预留计算资源。 计算池有利于减少新作业群集的启动时间并确保计算资源可用性。 请参阅 池配置参考

是否应将通用计算用于作业?

出于多种原因,Databricks 不建议在作业中使用通用计算,包括以下几点:

  • Azure Databricks 按与作业计算不同的费率为通用计算计费。
  • 作业计算在作业运行完成后自动终止。 通用计算支持自动终止,并且这种终止与非活动状态相关联,而不是与作业运行结束相关联。
  • 通用计算通常会跨用户团队共享。 计划在通用计算资源上执行的作业通常由于计算资源竞争而导致延迟增加。
  • 优化作业计算配置的许多建议不适用于在通用计算上运行的临时查询和交互式工作负载类型。

以下是您可能会选择使用通用计算来处理作业的情况:

  • 你正在迭代开发或测试新作业。 作业计算的启动时间可能使得迭代开发变得繁琐。 使用通用计算有助于快速应用更改和运行作业。
  • 你有一些短期作业,它们必须经常或按特定计划运行。 没有与当前运行的通用计算任务关联的启动时间。 如果使用此模式,请注意与空闲时间相关的成本。