本文介绍为分布式训练准备数据的方法。
对于内存中不适合的非常大的数据集,请使用流式处理方法:
- 用于自定义流式处理逻辑的 PyTorch IterableDataset。
- Hugging Face 数据集与 Hub 或卷上托管的数据集进行流式处理。
- 用于分布式批处理数据处理的 Ray 数据。
TFRecord
你也可以使用 TFRecord 格式作为数据源来进行分布式深度学习。 TFRecord 格式是简单的面向记录的二进制格式,许多 TensorFlow 应用程序将其用于训练数据。
tf.data.TFRecordDataset 是 TensorFlow 数据集,由 TFRecords 文件中的记录构成。 若要详细了解如何使用 TFRecord 数据,请参阅 TensorFlow 指南使用 TFRecord 数据。
以下文章描述并说明了关于将数据保存到 TFRecord 文件和加载 TFRecord 文件的推荐方法: