准备数据以进行分布式训练

本文介绍了用于准备数据进行分布式训练的两种方法:Petastorm 和 TFRecords。

Petastorm 是开源数据访问库,支持直接加载以 Apache Parquet 格式存储的数据。 这对于 Azure Databricks 和 Apache Spark 用户来说很方便,因为 Parquet 是推荐的数据格式。 下文对此用例进行了说明:

TFRecord

你也可以使用 TFRecord 格式作为数据源来进行分布式深度学习。 TFRecord 格式是简单的面向记录的二进制格式,许多 TensorFlow 应用程序将其用于训练数据。

tf.data.TFRecordDataset 是 TensorFlow 数据集,由 TFRecords 文件中的记录构成。 若要详细了解如何使用 TFRecord 数据,请参阅 TensorFlow 指南使用 TFRecord 数据

以下文章描述并说明了关于将数据保存到 TFRecord 文件和加载 TFRecord 文件的推荐方法: