使用 Azure Databricks 读取 Parquet 文件

本文介绍如何使用 Azure Databricks 从 Apache Parquet 文件中读取数据。

什么是 Parquet?

Apache Parquet 是一种列式文件格式,具有加快查询速度的优化功能。 它是比 CSVJSON 更为高效的文件格式。

有关详细信息,请参阅 Parquet 文件

选项

使用 .option().options()DataFrameReaderDataFrameWriter 方法来配置 Parquet 数据源。 有关受支持选项的完整列表,请参阅 DataFrameReader Parquet 选项DataFrameWriter Parquet 选项

笔记本示例:读取和写入 Parquet 文件

以下笔记本显示了如何在 Parquet 文件中读取和写入数据。

用于读取 Parquet 文件的笔记本

获取笔记本