返回一个新的列,用于非重复的 col 或 cols 计数。 支持 Spark Connect。
一个别名 count_distinct,建议直接使用 count_distinct 。
Syntax
from pyspark.databricks.sql import functions as dbf
dbf.countDistinct(col=<col>, *cols)
参数
| 参数 | 类型 | Description |
|---|---|---|
col |
pyspark.sql.Column 或列名 |
要计算的第一列。 |
cols |
pyspark.sql.Column 或列名 |
要计算的其他列。 |
例子
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.count_distinct(df.value)).show()
+---------------------+
|count(DISTINCT value)|
+---------------------+
| 2|
+---------------------+
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.countDistinct(df.value)).show()
+---------------------+
|count(DISTINCT value)|
+---------------------+
| 2|
+---------------------+