本部分介绍了如何加载专用于 ML 和 DL 应用程序的数据。 有关加载数据的常规信息,请参阅将数据引入 Azure Databricks 湖屋。
机器学习应用程序可能需要使用共享存储来执行数据加载和模型检查点操作。 对于分布式深度学习来说,这尤其重要。
Azure Databricks 为所有数据和 AI 资产提供统一的治理解决方案 Unity Catalog。 可使用 Unity Catalog 通过 Spark 和本地文件 API 访问群集中的数据。
可从表格或文件(例如,请参阅读取 CSV 文件)加载表格机器学习数据。 可使用 PySpark 方法toPandas()
将 Apache Spark 数据帧转换为 Pandas 数据帧,然后根据需要使用 PySpark 方法to_numpy()
转换为 NumPy 格式。
可以使用 Hugging Face Transformers 和 Hugging Face Datasets 准备数据以微调开源大型语言模型。
本部分介绍了如何使用 Mosaic Streaming 和 TFRecords 为分布式深度学习训练准备数据。