本文介绍如何使用 Azure Databricks 从 Apache Parquet 文件中读取数据。
什么是 Parquet?
Apache Parquet 是一种列式文件格式,具有加快查询速度的优化功能。 它是比 CSV 或 JSON 更为高效的文件格式。
有关详细信息,请参阅 Parquet 文件。
选项
使用 .option() 和 .options() 的 DataFrameReader 和 DataFrameWriter 方法来配置 Parquet 数据源。 有关受支持选项的完整列表,请参阅 DataFrameReader Parquet 选项 和 DataFrameWriter Parquet 选项。
笔记本示例:读取和写入 Parquet 文件
以下笔记本显示了如何在 Parquet 文件中读取和写入数据。