使用 DeepSpeed 分发服务器进行分布式训练

项目
10/18/2023

本文介绍如何使用 DeepSpeed 分发服务器在 PyTorch ML 模型上执行分布式训练。

DeepSpeed 分发服务器基于 TorchDistributor 构建，对于具有需要更高计算能力但受内存约束限制的模型的客户，它是推荐的解决方案。

DeepSpeed 库是由 Microsoft 开发的开放源代码库，在 Databricks Runtime 14.0 ML 或更高版本中可用。它提供优化的内存使用情况、减少的通信开销和高级管道并行度，以允许缩放模型和训练过程，否则这些过程在标准硬件上是无法实现的。

下面是有关 DeepSpeed 分发服务器优势的示例方案：

GPU 内存不足。
大模型训练。
大型输入数据，例如在批量推理期间。

使用 DeepSpeed 进行分布式训练的示例笔记本

以下笔记本示例演示了如何使用 DeepSpeed 分发服务器执行分布式训练。

使用 `DeepspeedTorchDistributor` 笔记本微调 Llama 2 7B 聊天

获取笔记本