使用 Azure Databricks 读取 Parquet 文件

本文介绍如何使用 Azure Databricks 从 Apache Parquet 文件中读取数据。

什么是 Parquet?

Apache Parquet 是一种列式文件格式,具有加快查询速度的优化功能。 它是比 CSVJSON 更为高效的文件格式。

有关详细信息,请参阅 Parquet 文件

选项

有关支持的读取和写入选项,请参阅以下 Apache Spark 参考文章。

笔记本示例:读取和写入 Parquet 文件

以下笔记本显示了如何在 Parquet 文件中读取和写入数据。

读取 Parquet 文件笔记本

获取笔记本