多类提升决策树

本文介绍 Azure 机器学习设计器中的一个组件。

使用此组件可创建基于提升决策树算法的机器学习模型。

提升决策树是一种集成学习方法,在此方法中,第二个树将针对第一个树的误差进行纠正,第三个树将针对第一个和第二个树的误差进行纠正,依此类推。 预测基于树的集合。

配置方式

此组件会创建一个未训练的分类模型。 由于分类是一种监督式学习方法,所以,你需要一个标记的数据集,其中包含一个标签列,该列在所有行中都有一个值。

可以使用训练模型来训练这种类型的模型。

  1. 将“多类提升决策树”组件添加到管道。

  2. 通过设置“创建训练程序模式”选项,指定所希望的模型训练方式。

    • 单个参数:如果你知道自己想要如何配置模型,可以提供一组特定的值作为参数。

    • 参数范围:如果不确定最佳参数并想要运行参数整理,请选择此选项。 选择要循环访问的值范围,优化模型超参数将循环访问所提供设置的所有可能组合,以确定产生最佳结果的超参数。

  3. “每个树的最大叶数”限制可在任何树中创建的终端节点(叶)的最大数目。

    如果增大此值,则可能会增加树的大小并达到更高的精度,但会有过度拟合和训练时间较长的风险。

  4. “每个叶节点的最少样本数”指示在树中创建任何终端节点(叶)所需的事例数。

    通过增加此值,可以增加用于创建新规则的阈值。 例如,使用默认值 1 时,即使是单个事例也可以导致创建新规则。 如果将值增加到 5,则训练数据将必须包含至少五个满足相同条件的案例。

  5. “学习速率”定义学习时的步幅。 请输入介于 0 到 1 之间的数字。

    学习速率决定了学习器向最佳解决方案趋近的速度。 如果步幅太大,则可能超出最佳解决方案。 如果步幅太小,训练将花费更长的时间来趋近最佳解决方案。

  6. “构造的树数”指示要在集成中创建的决策树的总数。 通过创建更多决策树,你可能会获得更好的覆盖范围,但训练时间将会增加。

  7. “随机数种子”可以选择性地设置非负整数作为随机种子值。 指定种子可以确保具有相同数据和参数的运行之间的可再现性。

    默认情况下,随机种子设置为 42。 使用不同随机种子的后续运行会产生不同的结果。

  8. 训练模型:

    • 如果将“创建训练器模式”设置为“单个参数”,请连接标记的数据集和训练模型组件。

    • 如果将“创建训练程序模式”设置为“参数范围”,请连接带标记的数据集并使用优化模型超参数来训练模型

    注意

    如果将参数范围传递给训练模型,则它只使用单个参数列表中的默认值。

    如果将一组参数值传递给优化模型超参数组件,则当它期望每个参数有一系列设置时,它会忽略这些值,对学习器使用默认值。

    如果选择“参数范围”选项并为任何参数输入单个值,则整个整理过程中都会使用你指定的单个值,即使其他参数的值发生一系列更改

后续步骤

请参阅 Azure 机器学习可用的组件集