approxCountDistinct

此聚合函数返回一个新的 Column,该列估计指定列或一组列中元素的近似非重复计数。 支持 Spark Connect。

警告

2.1.0 中已弃用。 请改用 approx_count_distinct

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.approxCountDistinct(col=<col>, rsd=<rsd>)

参数

参数 类型 Description
col pyspark.sql.Column 或列名 要在其中计算非重复值的列的标签。
rsd float自选 允许的最大相对标准偏差(默认值 = 0.05)。

例子

有关示例,请参阅 approx_count_distinct