了解数据集

机器学习模型从训练数据中捕获的历史决策和动作中“学习”。因此，它们在实际场景中的表现在很大程度上受到所训练数据的影响。当数据集中的特征分布出现偏差时，可能会导致模型错误地预测属于代表性不足组的数据点，或者根据不恰当的指标进行优化。

例如，虽然模型已训练 AI 系统来预测房价，但训练集代表的是 75% 的低于中值价格的新房。因此，它在成功识别更昂贵的历史房屋方面的准确性要低得多。解决方法是在训练数据中添加较旧且昂贵的房屋，并对特征进行扩充，使之包含有关历史价值的见解。该数据扩充改进了结果。

负责任 AI 仪表板的数据分析组件有助于根据预测结果和实际结果、错误组和特定特征将数据集可视化。它有助于识别过度代表和代表不足的问题，了解数据在数据集中是如何聚集的。数据可视化由聚合绘图或各数据点组成。