countDistinct

返回一个新的列，用于非重复的 col 或 cols 计数。支持 Spark Connect。

一个别名 count_distinct，建议直接使用 count_distinct 。

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.countDistinct(col=<col>, *cols)

参数

参数	类型	Description
`col`	`pyspark.sql.Column` 或列名	要计算的第一列。
`cols`	`pyspark.sql.Column` 或列名	要计算的其他列。

例子

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.count_distinct(df.value)).show()

+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.countDistinct(df.value)).show()

+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+

Last updated on 2026-02-28

通过

countDistinct

Syntax

参数

例子

其他资源