加载数据Load data

本部分介绍了如何加载专用于 ML 和 DL 应用程序的数据。This section covers information about loading data specifically for ML and DL applications. 有关加载数据的常规信息,请参阅数据For general information about loading data, see Data.

存储文件来执行数据加载和模型检查点操作Store files for data loading and model checkpointing

机器学习应用程序可能需要使用共享存储来执行数据加载和模型检查点操作。Machine learning applications may need to use shared storage for data loading and model checkpointing. 对于分布式深度学习来说,这尤其重要。This is particularly important for distributed deep learning. Databricks 提供了 Databricks 文件系统 (DBFS),你可通过它使用 Spark 和本地文件 API 访问群集上的数据。Databricks provides Databricks File System (DBFS) for accessing data on a cluster using both Spark and local file APIs.

加载表格数据Load tabular data

可从表格或文件(例如,请参阅 CSV 文件)加载表格机器学习数据。You can load tabular machine learning data from tables or files (for example, see CSV file). 可使用 PySpark toPandas 方法将 Apache Spark 数据帧转换为 Pandas 数据帧,然后根据需要使用 Pandas to_numpy 方法转换为 NumPy 格式。You can convert Apache Spark DataFrames into pandas DataFrames using the PySpark toPandas method, and then optionally convert to NumPy format using the pandas to_numpy method.

准备数据以进行分布式训练Prepare data for distributed training

本部分介绍了两种用于准备数据进行分布式训练的方法:Petastorm 和 TFRecords。This section covers two methods for preparing data for distributed training: Petastorm and TFRecords.