深度学习

本文简要介绍了如何使用 PyTorch、Tensorflow 和分布式训练在 Azure Databricks 上开发和微调深度学习模型。 它还包含指向页面的链接,其中包含演示如何使用这些工具的示例笔记本。

PyTorch

PyTorch 包含在 Databricks Runtime ML 中,提供 GPU 加速张量计算和用于构建深度学习网络的高级功能。 可以使用 Databricks 上的 PyTorch 执行单节点训练或分布式训练。 请参阅 PyTorch

TensorFlow

Databricks Runtime ML 包括 TensorFlow 和 TensorBoard,因此可以在不安装任何包的情况下使用这些库。 TensorFlow 支持在 CPU 上、GPU 上以及 GPU 群集上进行深度学习和常规数字计算。 TensorBoard 提供可视化工具,帮助你调试和优化机器学习和深度学习工作流。 有关单节点训练和分布式训练示例,请参阅 TensorFlow

分布式训练

由于深度学习模型需要大量数据和计算,因此分布式训练非常重要。 有关使用与 Horovod、spark-tensorflow-distributor、TorchDistributor 和 DeepSpeed 的集成的分布式深度学习,请参阅分布式训练

跟踪深度学习模型开发

跟踪仍然是 MLflow 生态系统的基石,对于深度学习的迭代性质尤其重要。 Databricks 使用 MLflow 跟踪深度学习训练运行和模型开发。 请参阅使用 MLflow 跟踪模型开发