制定数据驱动的策略和影响决策

机器学习模型识别数据模式和做出预测的能力非常强大。 但它们在存在干预时估计实际结果如何发生变化方面提供的支持很少。

从业者越来越关注使用历史数据来为他们未来的决策和业务干预提供信息。 例如,如果公司采用新的定价策略,收入会受到怎样的影响? 在其他条件相同的情况下,新药物会改善患者的病情吗?

这些问题可通过负责任 AI 仪表板的因果推理组件得以解决,方法是估计某个特征对观测的结果的平均影响、对整个人群或队列以及个人产生的影响。 该组件还有助于通过模拟对各种干预的特征反应,并制定规则来确定哪些同类人群将从干预中受益,从而构建有前景的干预。 决策者可结合使用这些功能来应用新策略并推动现实世界的变化。

此组件的功能来自 EconML 包。 该组件通过双重机器学习技术根据观察数据估计异质性处理效应。

如果需要实现以下行为,可使用因果推理:

  • 确定对观测的指标产生最直接影响的特征。
  • 确定在现实世界中对观测的指标产生最大影响而需制定的总体处理策略。
  • 了解具有特定特征值的个人如何响应特定的处理策略。

如何生成因果推理见解?

注意

只需历史数据就可生成因果见解。 基于处理特征计算的因果效应纯粹是一个数据属性。 因此,计算因果效应时,训练的模型是可选的。

双重机器学习是一种用于估计异质性处理效应的方法,它适用于以下情况:观察到所有潜在的混杂因素/控制因素(同时对收集的数据和观察到的结果中的处理决策有直接影响的因素),但存在以下问题之一:

  • 适用的经典统计方法太多。 也就是说,这些方法是高维性的。
  • 它们对处理和结果的影响无法通过参数函数合理建模。 也就是说,这些方法是非参数性的。

可以使用机器学习技术来解决这两个问题。 有关示例,请参阅 Chernozhukov2016

双重机器学习将问题简化为先估计两个预测任务:

  • 根据对照预测结果
  • 根据对照预测处理

然后,该方法结合这两个预测模型进行最后阶段的估计,以创建异质性处理效应模型。 此方法允许将任意机器学习算法用于这两个预测任务,同时保持与最终模型相关的许多有利的统计属性。 这些属性包括小的均方误差、渐近正态性、置信区间的构造。

Microsoft 提供有哪些其他工具用于因果推理?

  • Project Azua 是一种侧重于端到端因果推理的全新框架。

    Azua 的 DECI(深度端到端因果推理)技术是一种单一模型,可同时执行因果发现和因果推理。 用户只需提供数据,该模型就可以输出所有不同变量之间的因果关系。

    此方法本身可以提供数据见解。 使用此方法可以计算个体处理效应 (ITE)、平均处理效应 (ATE) 和条件平均处理效应 (CATE) 等指标。 然后,你可以使用这些计算结果做出最佳决策。

    该框架对于大型数据(就变量数和数据点数而言)是可缩放的。 它还可以处理具有混合统计类型的缺失数据条目。

  • EconML 为负责任 AI 仪表板的因果推理组件后端提供支持。 它是一个 Python 包,应用机器学习技术来估计来自观察或试验数据的个性化因果反应。

    EconML 中的估计方法套件代表了因果机器学习的最新进展。 通过将单独的机器学习步骤整合到可解释的因果模型中,这些方法提高了 What-if 预测的可靠性,并使因果分析对广大用户来说更快、更容易。

  • DoWhy 是一个 Python 库,旨在引发因果思维和分析。 DoWhy 为因果推理提供了一个原则性的四步接口,侧重于对因果假设进行显式建模并尽量验证它们。

    DoWhy 的关键特性是其先进的驳斥 API,它可以自动测试任何估计方法的因果假设。 它使推理更加可靠,非专家也可以使用。

    DoWhy 支持对后门、前门、工具变量和其他识别方法的平均因果效应估计。 它还支持通过与 EconML 库的集成来估计 CATE。

后续步骤