生产作业安排速查表

本文旨在为生产作业安排提供明确和有观点的指导。 使用最佳做法有助于降低成本、提高性能并加强安全性。

最佳做法 影响 文档
将作业群集用于自动化工作流 成本:作业群集的计费费率低于交互式群集。
重启长时间运行的群集 安全性:重启群集以利用 Databricks Runtime 的补丁和 bug 修复。
使用服务主体而不是用户帐户来运行生产作业 安全性:如果作业由个人用户拥有,则当这些用户离开组织时,这些作业可能会停止运行。
  • 服务主体
尽可能使用 Lakeflow 作业进行编排 成本:如果只是在 Azure Databricks 上协调工作负载,则无需使用外部工具来协调。
使用 Databricks Runtime 的最新 LTS 版本 性能和成本:Azure Databricks 始终在改进 Databricks Runtime 以提高可用性、性能和安全性。
不要在 DBFS 根目录中存储生产数据 安全性:当数据存储在 DBFS 根目录中时,所有用户都可以访问它。