使用 DeepSpeed 分发服务器进行分布式训练
本文介绍如何使用 DeepSpeed 分发服务器在 PyTorch ML 模型上执行分布式训练。
DeepSpeed 分发服务器基于 TorchDistributor 构建,对于具有需要更高计算能力但受内存约束限制的模型的客户,它是推荐的解决方案。
DeepSpeed 库是由 Microsoft 开发的开放源代码库,在 Databricks Runtime 14.0 ML 或更高版本中可用。 它提供优化的内存使用情况、减少的通信开销和高级管道并行度,以允许缩放模型和训练过程,否则这些过程在标准硬件上是无法实现的。
下面是有关 DeepSpeed 分发服务器优势的示例方案:
- GPU 内存不足。
- 大模型训练。
- 大型输入数据,例如在批量推理期间。
使用 DeepSpeed 进行分布式训练的示例笔记本
以下笔记本示例演示了如何使用 DeepSpeed 分发服务器执行分布式训练。