Compartir a través de

partitioning.bucket

用于通过输入列的哈希对任何类型进行分区的变换。

注释

此函数只能与方法结合使用 DataFrameWriterV2.partitionedBy

Syntax

from pyspark.sql.functions import partitioning

partitioning.bucket(numBuckets, col)

参数

参数 类型 Description
numBuckets pyspark.sql.Column 或 int 存储桶数。
col pyspark.sql.Column 或 str 要处理的目标日期或时间戳列。

例子

from pyspark.sql.functions import partitioning
df.writeTo("catalog.db.table").partitionedBy(
    partitioning.bucket(42, "ts")
).createOrReplace()