Compartir a través de

了解数据集

机器学习模型从训练数据中捕获的历史决策和动作中“学习”。 因此,它们在实际场景中的表现在很大程度上受到所训练数据的影响。 当数据集中的特征分布出现偏差时,可能会导致模型错误地预测属于代表性不足组的数据点,或者根据不恰当的指标进行优化。

例如,虽然模型已训练 AI 系统来预测房价,但训练集代表的是 75% 的低于中值价格的新房。 因此,它在成功识别更昂贵的历史房屋方面的准确性要低得多。 解决方法是在训练数据中添加较旧且昂贵的房屋,并对特征进行扩充,使之包含有关历史价值的见解。 该数据扩充改进了结果。

负责任 AI 仪表板的数据分析组件有助于根据预测结果和实际结果、错误组和特定特征将数据集可视化。 它有助于识别过度代表和代表不足的问题,了解数据在数据集中是如何聚集的。 数据可视化由聚合绘图或各数据点组成。

何时使用数据分析

在以下情况下需要使用数据分析:

  • 选择不同的筛选器将数据切片为不同的维度(也称为队列)以浏览数据集统计信息。
  • 了解数据集在不同队列和功能组中的分布。
  • 确定与公平性、错误分析和因果关系(来自其他仪表板组件)相关的发现是否是数据集分布的结果。
  • 确定在哪些领域收集更多数据,以减少由表示问题、标签噪声、特征噪声、标签偏差以及类似因素引起的错误。

后续步骤