本文旨在为生产作业安排提供明确和有观点的指导。 使用最佳做法有助于降低成本、提高性能并加强安全性。
最佳做法 | 影响 | 文档 |
---|---|---|
将作业群集用于自动化工作流 | 成本:作业群集的计费费率低于交互式群集。 | |
重启长时间运行的群集 | 安全性:重启群集以利用 Databricks Runtime 的补丁和 bug 修复。 | |
使用服务主体而不是用户帐户来运行生产作业 | 安全性:如果作业由个人用户拥有,则当这些用户离开组织时,这些作业可能会停止运行。 | |
尽可能使用 Lakeflow 作业进行编排 | 成本:如果只是在 Azure Databricks 上协调工作负载,则无需使用外部工具来协调。 | |
使用 Databricks Runtime 的最新 LTS 版本 | 性能和成本:Azure Databricks 始终在改进 Databricks Runtime 以提高可用性、性能和安全性。 | |
不要在 DBFS 根目录中存储生产数据 | 安全性:当数据存储在 DBFS 根目录中时,所有用户都可以访问它。 |