对由createcreateOrReplacereplace给定列或转换创建的输出表进行分区。 指定后,表数据由这些值存储,以便进行高效读取。
例如,按天对表进行分区时,它可能存储在目录布局中,例如:
table/day=2019-06-01/table/day=2019-06-02/
分区是优化物理数据布局的最广泛使用的技术之一。 当查询对分区列具有谓词时,它提供粗粒度索引,用于跳过不必要的数据读取。 若要正常进行分区,每个列中的非重复值数通常应小于数万。
col 仅 cols 支持以下转换函数:
pyspark.sql.functions.yearspyspark.sql.functions.monthspyspark.sql.functions.dayspyspark.sql.functions.hourspyspark.sql.functions.bucket
Syntax
partitionedBy(col, *cols)
参数
| 参数 | 类型 | Description |
|---|---|---|
col |
列或 str | 第一个分区列或转换。 |
*cols |
列或 str,可选 | 其他分区列或转换。 |
退货
DataFrameWriterV2