使用 DeepSpeed 分发服务器进行分布式训练

本文介绍如何使用 DeepSpeed 分发服务器在 PyTorch ML 模型上执行分布式训练。

DeepSpeed 分发服务器基于 TorchDistributor 构建,对于具有需要更高计算能力但受内存约束限制的模型的客户,它是推荐的解决方案。

DeepSpeed 库是由 Microsoft 开发的开放源代码库,在 Databricks Runtime 14.0 ML 或更高版本中可用。 它提供优化的内存使用情况、减少的通信开销和高级管道并行度,以允许缩放模型和训练过程,否则这些过程在标准硬件上是无法实现的。

下面是有关 DeepSpeed 分发服务器优势的示例方案:

  • GPU 内存不足。
  • 大模型训练。
  • 大型输入数据,例如在批量推理期间。

使用 DeepSpeed 进行分布式训练的示例笔记本

以下笔记本示例演示了如何使用 DeepSpeed 分发服务器执行分布式训练。

使用 DeepspeedTorchDistributor 笔记本微调 Llama 2 7B 聊天

获取笔记本