countDistinct

返回一个新的列,用于非重复的 col 或 cols 计数。 支持 Spark Connect。

一个别名 count_distinct,建议直接使用 count_distinct

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.countDistinct(col=<col>, *cols)

参数

参数 类型 Description
col pyspark.sql.Column 或列名 要计算的第一列。
cols pyspark.sql.Column 或列名 要计算的其他列。

例子

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.count_distinct(df.value)).show()
+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.countDistinct(df.value)).show()
+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+