“多类逻辑回归”组件

本文介绍 Azure 机器学习设计器中的一个组件。

使用此组件可创建逻辑回归模型,该模型可用于预测多个值。

使用逻辑回归的分类方法是一种监督式学习方法,因此需要经过标记的数据集。 通过提供模型和带标记的数据集作为训练模型之类的组件的输入,对模型进行训练。 然后即可使用训练的模型来预测新输入示例的值。

Azure 机器学习还提供了双类逻辑回归组件,它适用于对二元变量或二分变量进行分类。

关于多类逻辑回归

逻辑回归是统计学中著名的用于预测结果概率的方法,是分类任务的常用方法。 该算法通过将数据拟合到逻辑函数来预测事件发生的概率。

在多类逻辑回归中,分类器可用于预测多个结果。

配置多类逻辑回归

  1. 将“多类逻辑回归”组件添加到管道。

  2. 通过设置“创建训练程序模式”选项,指定所希望的模型训练方式。

    • 单个参数:如果知道自己想要如何配置模型,请使用此选项并提供一组特定的值作为参数。

    • 参数范围:如果无法确定最佳参数并想要运行参数扫描,请选择此选项。 选择要循环访问的值范围,优化模型超参数模块将循环访问所提供的设置的所有可能组合,以确定产生最佳结果的超参数。

  3. 优化容差,指定优化器收敛的阈值。 如果迭代间的改进小于阈值,则算法将停止并返回当前模型。

  4. L1 正则化权重L2 正则化权重:键入要用于正则化参数 L1 和 L2 的值。 对于这两个值,建议使用非零值。

    正则化是一种通过处罚具有极端系数值的模型来防止过度拟合的方法。 正则化的工作原理是将与系数值相关联的处罚添加到假设的错误。 具有极端系数值的准确模型受到的处罚相较而言更大,而值更保守的不准确的模型受到的处罚相较而言更小。

    L1 和 L2 正则化具有不同的效果和用途。 L1 可用于稀疏模型,这在处理高维数据时非常有用。 与此相反,L2 正则化更适合用于非稀疏数据。 此算法支持 L1 和 L2 正则化值的线性组合:也就是说,如果 x = L1y = L2,则 ax + by = c 定义正则化术语的线性跨度。

    已为逻辑回归模型设计了 L1 和 L2 术语的不同线性组合,例如弹性网络正则化

  5. 随机数种子:如果希望结果在运行期间是可重复的,请键入一个整数值作为算法的种子。 否则,将使用系统时钟值作为种子,这可能会在同一管道的运行中产生略微不同的结果。

  6. 连接标记的数据集,并训练模型:

    • 如果将“创建训练器模式”设置为“单个参数”,请连接标记的数据集和训练模型组件。

    • 如果将“创建训练程序模式”设置为“参数范围”,请连接带标记的数据集并使用优化模型超参数来训练模型

    注意

    如果将参数范围传递给训练模型,则它只使用单个参数列表中的默认值。

    如果将一组参数值传递给优化模型超参数组件,则当它期望每个参数有一系列设置时,它会忽略这些值,对学习器使用默认值。

    如果选择“参数范围”选项并为任何参数输入单个值,则整个整理过程中都会使用你指定的单个值,即使其他参数的值发生一系列更改

  7. 提交管道。

后续步骤

请参阅 Azure 机器学习可用的组件集