映射数据流中的聚合函数

适用于:Azure 数据工厂 Azure Synapse Analytics

数据流在 Azure 数据工厂管道和 Azure Synapse Analytics 管道中都可用。 本文适用于映射数据流。 如果你不熟悉转换,请参阅介绍性文章: 使用映射数据流转换数据

本文提供有关 Azure 数据工厂和 Azure Synapse Analytics 在映射数据流中支持的聚合函数的详细信息。

聚合函数列表

以下函数仅在聚合、透视、逆透视和窗口转换中可用。

聚合函数 任务
approxDistinctCount 获取列的相异值的近似聚合计数。 可选的第二个参数用于控制估计误差。
avg 获取列值的平均值。
avgIf 根据条件获取列值的平均值。
collect 将聚合组中表达式的所有值收集到一个数组中。 在此过程中,您可以收集并转换结构到替代结构。 项数等于该组中的行数,可以包含 null 值。 收集的项目数应较小。
collectUnique 将聚合组中表达式的所有值收集到一个唯一的数组中。 在此过程中,您可以收集并转换结构到替代结构。 项数较小或等于该组中的行数,可以包含 null 值。 收集的项目数应较小。
计数 获取值的聚合计数。 如果指定了可选列,它将忽略 NULL 计数中的值。
countAll 获取值的聚合计数,包括 NULL 值。
countDistinct 获取列集的非重复值的聚合计数。
countAllDistinct 获取一组列的各个不同值的汇总计数,包括 NULL 值。
countIf 根据条件获取值的聚合计数。 如果指定了可选列,它将忽略 NULL 计数中的值。
covariancePopulation 获取两个列之间的总体协方差。
covariancePopulationIf 根据条件获取两列的总体协方差。
covarianceSample 获取两个列的样本协方差。
covarianceSampleIf 根据条件计算两列的样本协方差。
first 获取列组的第一个值。 如果省略第二个参数 ignoreNulls ,则假定为 false。
isDistinct 确定一列或一组列是否是非重复值。 它不将 null 计为非重复值。
kurtosis 获取列的峰度。
kurtosisIf 根据特定条件获取某列的峰度。
last 获取列组的最后一个值。 如果省略第二个参数 ignoreNulls ,则假定为 false。
max 获取列的最大值。
maxIf 根据条件获取列的最大值。
平均值 获取列值的中间值。 与 AVG相同。
meanIf 根据条件获取列的值平均值。 与 avgIf相同。
min 获取列的最小值。
minIf 根据条件获取列的最小值。
skewness 获取列的偏度。
skewnessIf 根据条件获取列的偏斜度。
stddev 获取列的标准偏差。
stddevIf 根据条件获取列的标准偏差。
stddevPopulation 获取列的总体标准偏差。
stddevPopulationIf 根据条件获取列的总体标准偏差。
stddevSample 获取列的样本标准偏差。
stddevSampleIf 根据条件获取列的示例标准偏差。
sum 获取数字列的聚合总数。
sumDistinct 获取数字列的非重复值的聚合总数。
sumDistinctIf 根据条件获取数值列的聚合和。 条件可以基于任何列。
sumIf 根据条件获取数值列的聚合和。 条件可以基于任何列。
topN 获取此列的最高 N 值。
variance 获取列的方差。
varianceIf 根据特定条件获取某一列的方差。
variancePopulation 获取列的总体方差。
variancePopulationIf 根据条件获取数据列的总体方差。
varianceSample 获取列的无偏方差。
varianceSampleIf 根据条件获取列的无偏差方差。