按...分区

对由createcreateOrReplacereplace给定列或转换创建的输出表进行分区。 指定后,表数据由这些值存储,以便进行高效读取。

例如,按天对表进行分区时,它可能存储在目录布局中,例如:

  • table/day=2019-06-01/
  • table/day=2019-06-02/

分区是优化物理数据布局的最广泛使用的技术之一。 当查询对分区列具有谓词时,它提供粗粒度索引,用于跳过不必要的数据读取。 若要正常进行分区,每个列中的非重复值数通常应小于数万。

colcols 支持以下转换函数:

  • pyspark.sql.functions.years
  • pyspark.sql.functions.months
  • pyspark.sql.functions.days
  • pyspark.sql.functions.hours
  • pyspark.sql.functions.bucket

Syntax

partitionedBy(col, *cols)

参数

参数 类型 Description
col 列或 str 第一个分区列或转换。
*cols 列或 str,可选 其他分区列或转换。

退货

DataFrameWriterV2