聚合函数:返回使用输入列中的值生成的 Datasketches KllLongsSketch 的紧凑二进制表示形式。 可选的 k 参数控制草图的大小和准确性(默认值 200,范围 8-65535)。
Syntax
from pyspark.databricks.sql import functions as dbf
dbf.kll_sketch_agg_bigint(col=<col>, k=<k>)
参数
| 参数 | 类型 | Description |
|---|---|---|
col |
pyspark.sql.Column 或列名 |
包含要聚合的 bigint 值的列。 |
k |
pyspark.sql.Column 或 int(可选) |
控制大小和准确性的 k 参数(默认值 200,范围 8-65535)。 |
退货
pyspark.sql.Column:KllLongsSketch 的二进制表示形式。
例子
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([1,2,3,4,5], "INT")
result = df.agg(dbf.kll_sketch_agg_bigint("value")).first()[0]
result is not None and len(result) > 0
True