Bucket

分区转换函数:按输入列的哈希对任意类型进行分区的转换。 支持 Spark Connect。

警告

在 4.0.0 中弃用。 请改用 partitioning.bucket

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.bucket(numBuckets=<numBuckets>, col=<col>)

参数

参数 类型 Description
numBuckets pyspark.sql.Columnint 存储桶数。
col pyspark.sql.Columnstr 要处理的目标日期或时间戳列。

退货

pyspark.sql.Column:按给定列分区的数据。

例子

df.writeTo("catalog.db.table").partitionedBy(
    bucket(42, "ts")
).createOrReplace()

注释

此函数只能与 partitionedBy DataFrameWriterV2 方法结合使用。