聚合函数:返回 Datasketches ThetaSketch 的压缩二进制表示形式,其中包含使用 lgNomEntries 名义条目配置的输入列中的值。
Syntax
from pyspark.databricks.sql import functions as dbf
dbf.theta_sketch_agg(col=<col>, lgNomEntries=<lgNomEntries>)
参数
| 参数 | 类型 | Description |
|---|---|---|
col |
pyspark.sql.Column 或列名 |
包含要聚合的值的列。 |
lgNomEntries |
pyspark.sql.Column 或 int(可选) |
名义条目的 log-base-2,其中名义条目是草图的大小(必须介于 4 到 26 之间,默认值为 12)。 |
退货
pyspark.sql.Column:ThetaSketch 的二进制表示形式。
例子
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(dbf.theta_sketch_estimate(dbf.theta_sketch_agg("value"))).show()
+--------------------------------------------------+
|theta_sketch_estimate(theta_sketch_agg(value, 12))|
+--------------------------------------------------+
| 3|
+--------------------------------------------------+
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(dbf.theta_sketch_estimate(dbf.theta_sketch_agg("value", 15))).show()
+--------------------------------------------------+
|theta_sketch_estimate(theta_sketch_agg(value, 15))|
+--------------------------------------------------+
| 3|
+--------------------------------------------------+