hll_sketch_agg

聚合函数:返回配置有 lgConfigK arg 的 Datasketches HllSketch 的可更新二进制表示形式。

Syntax

from pyspark.sql import functions as sf

sf.hll_sketch_agg(col, lgConfigK=None)

参数

参数 类型 Description
col pyspark.sql.Column 或 str 要聚合的列。
lgConfigK pyspark.sql.Column 或 int,可选 K 的 log-base-2,其中 K 是 HllSketch 的存储桶数或槽数。

退货

pyspark.sql.Column:HllSketch 的二进制表示形式。

例子

示例 1:使用默认 lgConfigK 创建 HLL 草图

from pyspark.sql import functions as sf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(sf.hll_sketch_estimate(sf.hll_sketch_agg("value"))).show()
+----------------------------------------------+
|hll_sketch_estimate(hll_sketch_agg(value, 12))|
+----------------------------------------------+
|                                             3|
+----------------------------------------------+

示例 2:使用指定的 lgConfigK 创建 HLL 草图

from pyspark.sql import functions as sf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(sf.hll_sketch_estimate(sf.hll_sketch_agg("value", 12))).show()
+----------------------------------------------+
|hll_sketch_estimate(hll_sketch_agg(value, 12))|
+----------------------------------------------+
|                                             3|
+----------------------------------------------+