Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Window 函数:返回窗口分区中值的累积分布,即当前行下方的行的分数。
Syntax
from pyspark.sql import functions as sf
sf.cume_dist()
参数
此函数不采用任何参数。
退货
pyspark.sql.Column:用于计算累积分布的列。
例子
from pyspark.sql import functions as sf
from pyspark.sql import Window
df = spark.createDataFrame([1, 2, 3, 3, 4], "int")
w = Window.orderBy("value")
df.withColumn("cd", sf.cume_dist().over(w)).show()
+-----+---+
|value| cd|
+-----+---+
| 1|0.2|
| 2|0.4|
| 3|0.8|
| 3|0.8|
| 4|1.0|
+-----+---+