Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
聚合函数:返回配置有 lgConfigK arg 的 Datasketches HllSketch 的可更新二进制表示形式。
Syntax
from pyspark.sql import functions as sf
sf.hll_sketch_agg(col, lgConfigK=None)
参数
| 参数 | 类型 | Description |
|---|---|---|
col |
pyspark.sql.Column 或 str |
要聚合的列。 |
lgConfigK |
pyspark.sql.Column 或 int,可选 |
K 的 log-base-2,其中 K 是 HllSketch 的存储桶数或槽数。 |
退货
pyspark.sql.Column:HllSketch 的二进制表示形式。
例子
示例 1:使用默认 lgConfigK 创建 HLL 草图
from pyspark.sql import functions as sf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(sf.hll_sketch_estimate(sf.hll_sketch_agg("value"))).show()
+----------------------------------------------+
|hll_sketch_estimate(hll_sketch_agg(value, 12))|
+----------------------------------------------+
| 3|
+----------------------------------------------+
示例 2:使用指定的 lgConfigK 创建 HLL 草图
from pyspark.sql import functions as sf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(sf.hll_sketch_estimate(sf.hll_sketch_agg("value", 12))).show()
+----------------------------------------------+
|hll_sketch_estimate(hll_sketch_agg(value, 12))|
+----------------------------------------------+
| 3|
+----------------------------------------------+