partitioning.bucket

用于通过输入列的哈希对任何类型进行分区的变换。

注释

此函数只能与方法结合使用 DataFrameWriterV2.partitionedBy 。

Syntax

from pyspark.sql.functions import partitioning

partitioning.bucket(numBuckets, col)

参数	类型	Description
`numBuckets`	`pyspark.sql.Column` 或 int	存储桶数。
`col`	`pyspark.sql.Column` 或 str	要处理的目标日期或时间戳列。

from pyspark.sql.functions import partitioning
df.writeTo("catalog.db.table").partitionedBy(
    partitioning.bucket(42, "ts")
).createOrReplace()