了解数据集

机器学习模型从训练数据中捕获的历史决策和动作中“学习”。因此，它们在实际场景中的表现在很大程度上受到所训练数据的影响。当数据集中的特征分布偏斜时，它可能会导致模型错误地预测属于未代表组的数据点，或者通过不适当的指标进行优化。

例如，在训练用于预测房价的 AI 系统时，训练集中的样本有 75% 是价格低于中位数的较新房屋。因此，该模型在成功识别较为昂贵的历史房屋时，准确性要低得多。解决方法是在训练数据中添加较旧且昂贵的房屋，并对特征进行扩充，使之包含有关历史价值的见解。该数据扩充改进了结果。

负责任 AI 仪表板的数据分析组件有助于根据预测结果和实际结果、错误组和特定特征将数据集可视化。它有助于识别过度代表和代表不足的问题，了解数据在数据集中是如何聚集的。数据可视化由聚合绘图或各数据点组成。