“多类决策林”组件

项目
08/17/2023

本文介绍 Azure 机器学习设计器中的一个组件。

使用此组件可基于“决策林”算法创建机器学习模型。决策林是一种系综模型，可在从标记数据中学习的同时快速生成一系列决策树。

有关决策林的详细信息

决策林算法是一种用于分类的系综学习方法。该算法的工作原理是生成多个决策树，然后对最受欢迎的输出类进行投票。投票是一种聚合形式，其中分类决策林中的每棵树都输出标签的非标准化频率直方图。聚合过程将这些直方图求和，并对结果进行标准化以获得每个标签的“概率”。决策树的预测置信度越高，其在系综的最终决策中所占的权重越高。

决策树通常是非参数模型，这意味着它们支持具有不同分布的数据。在每棵树中，为每个类运行一系列简单测试，从而增加树结构的级别，直到达到叶节点（决策）为止。

决策树具有许多优点：

可以表示非线性决策边界。
在训练和预测期间的计算和内存使用效率高。
可执行集成的特征选择和分类。
可以抵抗干扰特征的影响。

Azure 机器学习中的决策林分类器由决策树的系综构成。一般说来，系综模型可以提供比单个决策树更大的覆盖范围和更高的准确度。有关详细信息，请参阅决策树。

如何配置多类决策林

将“多类决策林”组件添加到设计器中的管道。可以在“机器学习”、“初始化模型”和“分类”下找到此组件。
双击组件以打开“属性”窗格。
对于重新采样方法，请选择用于创建单个树的方法。可以选择装袋或复制。
- 装袋：装袋也称为“启动聚合”。在此方法中，每个树都在新示例的基础上发展。新示例的创建方法是，对原始数据集进行随机采样并替换，直到得到与原始数据集相同大小的数据集。通过投票（一种聚合形式）组合模型的输出。有关详细信息，请参阅关于启动聚合的维基百科条目。
- 复制：在复制中，每个树都用完全相同的输入数据进行训练。确定每个树节点使用哪个拆分谓词仍然是随机的，从而创建了不同的树。
通过设置“创建训练模式”选项，指定希望如何训练模型。
- 单个参数：如果知道自己想要如何配置模型，请选择此选项并提供一组值作为参数。
- 参数范围：如果不确定最佳参数并想要运行参数整理，请选择此选项。选择要循环访问的值范围，优化模型超参数将循环访问所提供设置的所有可能组合，以确定产生最佳结果的超参数。
决策树的数目：键入可在系综中创建的最大决策树数目。通过创建更多决策树，可获得更好的覆盖范围，但训练时间可能会增加。

如果将该值设置为 1；但是，这意味着只能生成一个树（该树具有初始的参数集），而不会执行进一步的迭代。
决策树的最大深度：键入一个数字，以限制任何决策树的最大深度。增加树的深度可能会提高精度，但存在过度拟合和训练时间增加的风险。
每个节点的随机拆分数：键入在生成树的每个节点时要使用的拆分数。拆分意味着对树的每个级别（节点）的要素进行随机划分。
每个叶节点的最小样本数：指示在树中创建任何终端节点（叶）所需的最小事例数。通过增加此值，可以增加创建新规则的阈值。

例如，使用默认值 1 时，即使是单个事例也可以导致创建新规则。如果将值增加到 5，则训练数据将必须包含至少五个满足相同条件的案例。
连接标记的数据集，并训练模型：
- 如果将“创建训练器模式”设置为“单个参数”，请连接标记的数据集和训练模型组件。
- 如果将“创建训练程序模式”设置为“参数范围”，请连接带标记的数据集并使用优化模型超参数来训练模型。
注意

如果将参数范围传递给训练模型，则它只使用单个参数列表中的默认值。

如果将一组参数值传递给优化模型超参数组件，则当它期望每个参数有一系列设置时，它会忽略这些值，对学习器使用默认值。

如果选择“参数范围”选项并为任何参数输入单个值，则整个整理过程中都会使用你指定的单个值，即使其他参数的值发生一系列更改。
提交管道。

后续步骤

请参阅 Azure 机器学习可用的组件集。

“多类决策林”组件

有关决策林的详细信息

如何配置多类决策林

后续步骤

其他资源