閱讀英文

共用方式為

深度学习

本文简要介绍了如何使用 PyTorch、Tensorflow 和分布式训练在 Azure Databricks 上开发和微调深度学习模型。 它还包含指向页面的链接,其中包含演示如何使用这些工具的示例笔记本。

PyTorch

PyTorch 包含在 Databricks Runtime ML 中,提供 GPU 加速张量计算和用于构建深度学习网络的高级功能。 可以使用 Databricks 上的 PyTorch 执行单节点训练或分布式训练。 请参阅 PyTorch

TensorFlow

Databricks Runtime ML 包括 TensorFlow 和 TensorBoard,因此可以在不安装任何包的情况下使用这些库。 TensorFlow 支持在 CPU 上、GPU 上以及 GPU 群集上进行深度学习和常规数字计算。 TensorBoard 提供可视化工具,帮助你调试和优化机器学习和深度学习工作流。 有关单节点训练和分布式训练示例,请参阅 TensorFlow

分布式训练

由于深度学习模型需要大量数据和计算,因此分布式训练非常重要。 有关使用与 Ray、TorchDistributor 和 DeepSpeed 的集成的分布式深度学习,请参阅分布式训练

跟踪深度学习模型开发

跟踪仍然是 MLflow 生态系统的基石,对于深度学习的迭代性质尤其重要。 Databricks 使用 MLflow 跟踪深度学习训练运行和模型开发。 请参阅使用 MLflow 跟踪模型开发