多类提升决策树

项目
08/17/2023

本文介绍 Azure 机器学习设计器中的一个组件。

使用此组件可创建基于提升决策树算法的机器学习模型。

提升决策树是一种集成学习方法，在此方法中，第二个树将针对第一个树的误差进行纠正，第三个树将针对第一个和第二个树的误差进行纠正，依此类推。预测基于树的集合。

配置方式

此组件会创建一个未训练的分类模型。由于分类是一种监督式学习方法，所以，你需要一个标记的数据集，其中包含一个标签列，该列在所有行中都有一个值。

可以使用训练模型来训练这种类型的模型。

将“多类提升决策树”组件添加到管道。
通过设置“创建训练程序模式”选项，指定所希望的模型训练方式。
- 单个参数：如果你知道自己想要如何配置模型，可以提供一组特定的值作为参数。
- 参数范围：如果不确定最佳参数并想要运行参数整理，请选择此选项。选择要循环访问的值范围，优化模型超参数将循环访问所提供设置的所有可能组合，以确定产生最佳结果的超参数。
“每个树的最大叶数”限制可在任何树中创建的终端节点（叶）的最大数目。

如果增大此值，则可能会增加树的大小并达到更高的精度，但会有过度拟合和训练时间较长的风险。
“每个叶节点的最少样本数”指示在树中创建任何终端节点（叶）所需的事例数。

通过增加此值，可以增加用于创建新规则的阈值。例如，使用默认值 1 时，即使是单个事例也可以导致创建新规则。如果将值增加到 5，则训练数据将必须包含至少五个满足相同条件的案例。
“学习速率”定义学习时的步幅。请输入介于 0 到 1 之间的数字。

学习速率决定了学习器向最佳解决方案趋近的速度。如果步幅太大，则可能超出最佳解决方案。如果步幅太小，训练将花费更长的时间来趋近最佳解决方案。
“构造的树数”指示要在集成中创建的决策树的总数。通过创建更多决策树，你可能会获得更好的覆盖范围，但训练时间将会增加。
“随机数种子”可以选择性地设置非负整数作为随机种子值。指定种子可以确保具有相同数据和参数的运行之间的可再现性。

默认情况下，随机种子设置为 42。使用不同随机种子的后续运行会产生不同的结果。
训练模型：
- 如果将“创建训练器模式”设置为“单个参数”，请连接标记的数据集和训练模型组件。
- 如果将“创建训练程序模式”设置为“参数范围”，请连接带标记的数据集并使用优化模型超参数来训练模型。
注意

如果将参数范围传递给训练模型，则它只使用单个参数列表中的默认值。

如果将一组参数值传递给优化模型超参数组件，则当它期望每个参数有一系列设置时，它会忽略这些值，对学习器使用默认值。

如果选择“参数范围”选项并为任何参数输入单个值，则整个整理过程中都会使用你指定的单个值，即使其他参数的值发生一系列更改。

后续步骤

请参阅 Azure 机器学习可用的组件集。

多类提升决策树

配置方式

后续步骤

其他资源