模型性能和公平性

项目
08/17/2023

本文描述可用于了解 Azure 机器学习中的模型性能和公平性的方法。

什么是机器学习公平性？

人工智能和机器学习系统可能会表现出不公平的行为。定义不公平行为的一种方法是按其损害或对人的影响来定义。人工智能系统会导致多种类型的损害。

人工智能造成的两种常见损害是：

对分配的损害：AI 系统会对特定群体提供或拒绝提供机会、资源或信息。示例包括招聘、学校招生和贷款。在这些场景中，某个模型在特定人群中挑选优秀候选人的能力可能要强于在其他人群中进行挑选的能力。
对服务质量的损害：人工智能系统针对一个人群的工作质量没有针对另一个人群的工作质量好。例如，语音识别系统针对女性的工作质量可能没有针对男性的工作质量好。

为了减少人工智能系统中的不公平行为，你必须评估并缓解这些损害。负责任 AI 仪表板的模型概述组件通过为整个数据集和已识别的数据群组生成模型性能指标，为模型生命周期的“识别”阶段做出贡献。它在各子组中生成以下指标，这些子组根据敏感特征或敏感特性进行标识。

注意

公平性是一个社会性的技术难题。公平性的许多方面（例如公正和正当程序）并没有通过量化的公平性指标进行捕获。另外，许多量化的公平性指标无法同时得到满足。

Fairlearn 开放源代码包的目标是使人类能够评估影响和缓解策略。最终，取决于构建人工智能和机器学习模型的人来做出适合其场景的权衡。

在负责任 AI 仪表板的此组件中，公平性是通过一种被称为群体公平性的方法进行概念化的。该方法会询问以下问题：“哪些个体群体有遭受损害的风险？” 术语“敏感特性”表明系统设计者在评估组公平性时应对这些特性保持敏感。

在评估阶段，公平性是通过差异指标进行量化的。这些指标能够以比率或差值的形式评估并比较模型在群体中的行为。负责任 AI 仪表板支持两类差异指标：

模型性能差异：这些指标集计算数据子组中所选性能指标值的差异（差值）。以下是一些示例：
- 准确率差异
- 错误率差异
- 精度差异
- 召回率差异
- 平均绝对误差 (MAE) 的差异
选择率差异：此指标包含子组之间选择率（有利预测）的差值。此差异的一个示例是贷款批准率差异。选择率是指每个分类中归类为 1 的数据点所占的比例（在二元分类中）或者指预测值的分布（在回归中）。

此组件的公平性评估功能来自 Fairlearn 包。 Fairlearn 提供了一系列模型公平性评估指标和不公平性缓解算法。

注意

公平性评估并非纯粹的技术练习。 Fairlearn 开放源代码包可以识别量化指标以帮助评估模型的公平性，但它不会执行评估。必须执行定性分析来评估自己模型的公平性。上面所述的敏感特征是此类定性分析的一个示例。

缓解不公平性的奇偶校验约束

了解模型的公平性问题后，可以使用 Fairlearn 开放源代码包中的缓解算法来缓解这些问题。这些算法支持对预测器行为的一组约束（称为奇偶校验约束或条件）。

奇偶校验约束要求预测器行为的某些方面在敏感特征所定义的群体（例如不同的种族）之间具有可比性。 Fairlearn 开源包中的缓解算法使用此类奇偶校验约束来缓解所观察到的公平性问题。

注意

Fairlearn 开放源代码包中的不公平性缓解算法可提供建议的缓解策略，以减少机器学习模型中的不公平性，但这些策略并不能消除不公平性。开发人员可能需要为其机器学习模型考虑其他奇偶约束或条件。使用 Azure 机器学习的开发人员必须自行确定，缓解措施是否充分减少其机器学习模型的预期使用和部署中的任何不公平性。

Fairlearn 包支持下列类型的奇偶校验约束：

奇偶校验约束	目的	机器学习任务
人口统计奇偶校验	缓解分配损害	二元分类、回归
均等几率	诊断分配和服务质量损害	二元分类
均等机会	诊断分配和服务质量损害	二元分类
有界群体损失	缓解服务质量损害	回归

缓解算法

Fairlearn 开放源代码包提供两种类型的不公平缓解算法：

约简：这些算法采用标准的黑盒机器学习估算器（例如 LightGBM 模型），并使用一系列重新加权的训练数据集生成一组经过重新训练的模型。

例如，某一性别的申请者可能会被提高或降低权重，然后重新训练模型，降低性别群体之间的差异。然后，用户可以选择一个模型，该模型在准确性（或其他性能指标）与差异之间提供最佳的权衡，这一权衡基于业务规则和成本计算。
后期处理：这些算法采用现有分类器和敏感特征作为输入。然后，它们将派生分类器的预测转换，以强制实施指定的公平性约束。一种后处理算法阈值优化的最大优势在于其简单性和灵活性，因为它不需要重新训练模型。

算法	说明	机器学习任务	敏感特征	支持的奇偶校验约束	算法类型
`ExponentiatedGradient`	A Reductions Approach to Fair Classification（公平分类的约简方法）中描述的公平分类的黑盒方法。	二元分类	分类	人口统计奇偶校验、均等几率	约简
`GridSearch`	A Reductions Approach to Fair Classification（公平分类的约简方法）中描述的黑盒方法。	二元分类	二进制	人口统计奇偶校验、均等几率	约简
`GridSearch`	一种黑盒方法，它通过公平回归：量化的定义和基于约简的算法中描述的用于有界群体损失的算法实现公平回归的网格搜索变体。	回归	二进制	有界群体损失	约简
`ThresholdOptimizer`	基于 Equality of Opportunity in Supervised Learning（监督式学习中的机会均等性）一文的后期处理算法。此方法采用现有分类器和敏感特征的输入。然后，它派生分类器预测的单调变换以强制执行指定的奇偶约束。	二元分类	分类	人口统计奇偶校验、均等几率	后处理

后续步骤

了解如何通过 CLI 和 SDK 或 Azure 机器学习工作室 UI 生成负责任 AI 仪表板。
浏览负责任 AI 仪表板的受支持的模型概述和公平性评估可视化效果。
了解如何根据在负责任 AI 仪表板中观察到的见解生成负责任 AI 记分卡）。
请查看 Fairlearn 的 GitHub 存储库、用户指南、示例和示例笔记本，了解如何使用这些组件。

模型性能和公平性

什么是机器学习公平性？

缓解不公平性的奇偶校验约束

缓解算法

后续步骤

其他资源