准备数据以进行分布式训练

本文介绍了用于准备数据进行分布式训练的方法：Mosaic 流式处理和 TFRecords。

Mosaic 流式处理（推荐）

Mosaic 流式处理是一个开放源代码数据加载库，可用于从云存储高效流式处理大型数据集。此库擅长处理不适合存储在内存中的海量数据集，因为它专为大型模型的多节点分布式训练而设计。 Mosaic 流式处理提供与 PyTorch 和 MosaicML 生态系统的无缝集成。下文对此用例进行了说明：

使用 Mosaic 流式处理加载数据

TFRecord

你也可以使用 TFRecord 格式作为数据源来进行分布式深度学习。 TFRecord 格式是简单的面向记录的二进制格式，许多 TensorFlow 应用程序将其用于训练数据。

tf.data.TFRecordDataset 是 TensorFlow 数据集，由 TFRecords 文件中的记录构成。若要详细了解如何使用 TFRecord 数据，请参阅 TensorFlow 指南使用 TFRecord 数据。

以下文章描述并说明了关于将数据保存到 TFRecord 文件和加载 TFRecord 文件的推荐方法：

将 Apache Spark 数据帧保存到 TFRecord 文件

Last updated on 2026-01-26