Compartir a través de

映射数据流中的聚合函数

适用于:Azure 数据工厂 Azure Synapse Analytics

数据流在 Azure 数据工厂和 Azure Synapse 管道中均可用。 本文适用于映射数据流。 如果不熟悉转换,请参阅介绍性文章使用映射数据流转换数据

以下文章详细介绍了映射数据流中 Azure 数据工厂和 Azure Synapse Analytics 所支持的聚合函数。

聚合函数列表

以下函数仅可用于聚合、透视、逆透视和窗口转换。

聚合函数 任务
approxDistinctCount 获取列的相异值的近似聚合计数。 可选的第二个参数用于控制估计误差。
avg 获取列值的平均值。
avgIf 根据条件获取列值的平均值。
collect 将聚合组中表达式的所有值收集到一个数组中。 在此过程中,可以收集结构并将其转换为备用结构。 项目数将等于该组中的行数,并且可以包含 NULL 值。 收集的项目数应较小。
collectUnique 将聚合组中表达式的所有值收集到一个唯一的数组中。 在此过程中,可以收集结构,并将其转换为备用结构。项数将小于或等于该组中的行数,并且可以包含 null 值。 收集的项目数应较小。
计数 获取值的聚合计数。 如果指定了可选的列,则忽略计数中的 NULL 值。
countAll 获取值(包含 null)的聚合计数。
countDistinct 获取列集的非重复值的聚合计数。
countAllDistinct 获取一组列(包括 null 在内)的非重复值的聚合计数。
countIf 根据条件获取值的聚合计数。 如果指定了可选的列,则忽略计数中的 NULL 值。
covariancePopulation 获取两个列之间的总体协方差。
covariancePopulationIf 根据条件获取两个列的总体协方差。
covarianceSample 获取两个列的样本协方差。
covarianceSampleIf 根据条件获取两个列的样本协方差。
first 获取列组的第一个值。 如果省略第二个参数 ignoreNulls,则假定为 false。
isDistinct 确定一列或一组列是否是非重复值。 它不将 null 计为非重复值
kurtosis 获取列的峰度。
kurtosisIf 根据条件获取列的峰度。
last 获取列组的最后一个值。 如果省略第二个参数 ignoreNulls,则假定为 false。
max 获取列的最大值。
maxIf 根据条件获取列的最大值。
平均值 获取列值的中间值。 与 AVG 相同。
meanIf 根据条件获取列值的中间值。 与 avgIf 相同。
min 获取列的最小值。
minIf 根据条件获取列的最小值。
skewness 获取列的偏度。
skewnessIf 根据条件获取列的偏度。
stddev 获取列的标准偏差。
stddevIf 根据条件获取列的标准偏差。
stddevPopulation 获取列的总体标准偏差。
stddevPopulationIf 根据条件获取列的总体标准偏差。
stddevSample 获取列的样本标准偏差。
stddevSampleIf 根据条件获取列的样本标准偏差。
sum 获取数字列的聚合总数。
sumDistinct 获取数字列的非重复值的聚合总数。
sumDistinctIf 根据条件获取数字列的聚合总数。 条件可以基于任何列。
sumIf 根据条件获取数字列的聚合总数。 条件可以基于任何列。
topN 获取此列的前 N 个值。
variance 获取列的方差。
varianceIf 根据条件获取列的方差。
variancePopulation 获取列的总体方差。
variancePopulationIf 根据条件获取列的总体方差。
varianceSample 获取列的无偏方差。
varianceSampleIf 根据条件获取列的无偏方差。