汇总数据

本文介绍 Azure 机器学习设计器的一个组件。

使用“汇总数据”组件创建一组标准的统计度量值,用于描述输入表中的每一列。

想要了解完整数据集的特征时,可以参阅汇总统计信息。 例如,你可能需要知道:

  • 每个列中的缺失值有多少?
  • 特征列中有多少唯一值?
  • 每个列的平均值和标准偏差是多少?

此组件计算每列的重要分数,并返回一行针对每个变量(数据列)的摘要统计信息(作为输入提供)。

如何配置“汇总数据”

  1. 将“汇总数据”组件添加到管道。 可以在设计器的“统计函数”类别中找到此组件。

  2. 连接要为其生成报表的数据集。

    如果只想报告某些列,请使用选择数据集中的列组件来投影要处理的列子集。

  3. 无需指定其他参数。 默认情况下,组件会分析作为输入提供的所有列,并根据列中的值的类型输出一组相关的统计信息,如结果部分所述。

  4. 提交管道。

结果

组件中的报表可能包含以下统计信息。

列名称 说明
功能 列的名称
计数 所有行的计数
唯一值计数 列中的唯一值数
缺失值计数 列中的唯一值数
最小值 列中的最低值
最大值 列中的最高值
平均值 所有列值的平均
平均偏差 列值的平均偏差
第 1 个四分位数 第 1 个四分位点的值
中值 中值列值
第 3 个四分位数 第 3 个四分位点的值
模式 列值的模式
范围 一个整数,表示最大值和最小值之间的值的数目
样本方差 列的方差;请参阅“说明”
样本标准差 列的标准差;请参阅“说明”
样本偏度 列的偏度;请参阅“说明”
样本峰度 列的峰度;请参阅“说明”
P0.5 0.5% 百分位数
P1 1% 百分位数
P5 5% 百分位数
P95 95% 百分位数
P99.5 99.5% 百分位数

技术说明

  • 对于非数字列,只计算计数、唯一值计数和缺失值计数的值。 对于其他统计信息,返回 null 值。

  • 使用以下规则处理包含布尔值的列:

    • 计算最小值时,应用逻辑 AND。

    • 计算最大值时,应用逻辑 OR

    • 在计算“范围”时,该组件首先检查列中的唯一值数是否等于 2。

    • 在计算需要浮点计算的任何统计量时,True 值将视为 1.0,False 值将视为 0.0。

后续步骤

请参阅 Azure 机器学习可用的组件集