Compartir a través de

theta_union_agg

聚合函数:返回 Datasketches ThetaSketch 的压缩二进制表示形式,该表示形式是输入列中 Theta 草图的并集。

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.theta_union_agg(col=<col>, lgNomEntries=<lgNomEntries>)

参数

参数 类型 Description
col pyspark.sql.Column 或列名 包含要联合的 Theta 草图的列。
lgNomEntries pyspark.sql.Columnint(可选) 联合作名义条目的 log-base-2(必须介于 4 到 26 之间,默认值为 12)。

退货

pyspark.sql.Column:合并的 ThetaSketch 的二进制表示形式。

例子

from pyspark.databricks.sql import functions as dbf
df1 = spark.createDataFrame([1,2,2,3], "INT")
df1 = df1.agg(dbf.theta_sketch_agg("value").alias("sketch"))
df2 = spark.createDataFrame([4,5,5,6], "INT")
df2 = df2.agg(dbf.theta_sketch_agg("value").alias("sketch"))
df3 = df1.union(df2)
df3.agg(dbf.theta_sketch_estimate(dbf.theta_union_agg("sketch"))).show()
+--------------------------------------------------+
|theta_sketch_estimate(theta_union_agg(sketch, 12))|
+--------------------------------------------------+
|                                                 6|
+--------------------------------------------------+