“决策林回归”组件

本文介绍 Azure 机器学习设计器中的一个组件。

使用此组件可创建基于决策树集合的回归模型。

在配置模型后,必须使用标记数据集和“训练模型”组件来训练模型。 然后,可以使用训练后的模型进行预测。

工作原理

决策树是非参数模型,可对每个实例执行一系列简单测试,遍历二元树数据结构,直至到达叶节点(决策)。

决策树具有以下优点:

  • 在训练和预测期间的计算和内存使用效率都很高。

  • 它们可以表示非线性决策边界。

  • 它们执行集成的特征选择和分类,并且在存在干扰性特征时具有弹性。

此回归模型由决策树的集成组成。 回归决策林中的每个树都将高斯分布输出为预测。 聚合是通过树的集成执行的,用于查找与模型中所有树的组合分布最接近的高斯分布。

有关此算法及其实现的理论框架的详细信息,请参阅以下文章:决策林:用于分类、回归、密度估算、流形学习和半监督式学习的统一框架

如何配置决策林回归模型

  1. 将“决策林回归”组件添加到管道。 可以在设计器中的“机器学习”、“初始化模型”和“回归”下找到此组件。

  2. 打开组件属性,对于“重新采样方法”,选择用于创建单个树的方法。 你可以选择“装袋”或“复制”。

    • 装袋:装袋也称为“启动聚合”。 回归决策林中的每个树都将高斯分布输出为预测。 聚合的目的是找到这样一个高斯分布:其前两个矩与通过组合各个树返回的所有分布来形成的混合高斯分布的矩相匹配。

      有关详细信息,请参阅关于启动聚合的维基百科条目。

    • 复制:在复制中,每个树都用完全相同的输入数据进行训练。 确定每个树节点使用哪个拆分谓词仍然是随机的,并且树将多种多样。

      有关包含复制选项的训练过程的详细信息,请参阅适用于计算机视觉和医疗图像分析的决策林。Criminisi 和 J. Shotton。Springer 2013。

  3. 通过设置“创建训练程序模式”选项,指定要如何对模型进行训练。

    • “单个参数”

      如果你知道自己想要如何配置模型,可以提供一组特定的值作为参数。 你可能已通过试验了解了这些值,或者已采用它们作为指南。

    • 参数范围:如果不确定最佳参数并想要运行参数整理,请选择此选项。 选择要循环访问的值范围,优化模型超参数将循环访问所提供设置的所有可能组合,以确定产生最佳结果的超参数。

  4. 对于“决策树数目”,请指定要在集成中创建的决策树的总数。 通过创建更多决策树,你可能会获得更好的覆盖范围,但训练时间将会增加。

    提示

    但是,如果将该值设置为 1,则意味着只会生成一个树(该树具有初始的参数集),而不会执行进一步的迭代。

  5. 对于“决策树的最大深度”,请键入一个数字,以限制任何决策树的最大深度。 增加树的深度可能会提高精度,但存在过度拟合和训练时间增加的风险。

  6. 对于“每个节点的随机拆分数”,键入在生成树的每个节点时要使用的拆分数。 “拆分”意味着对树的每个级别(节点)的要素进行随机划分。

  7. 对于“每个叶节点的最少样本数”,指定在树中创建任何终端节点(叶)所需的最小事例数。

    通过增加此值,可以增加创建新规则的阈值。 例如,使用默认值 1 时,即使是单个事例也可以导致创建新规则。 如果将值增加到 5,则训练数据将必须包含至少五个满足相同条件的案例。

  8. 训练模型:

    • 如果将“创建训练器模式”设置为“单个参数”,请连接标记的数据集和训练模型组件。

    • 如果将“创建训练程序模式”设置为“参数范围”,请连接带标记的数据集并使用优化模型超参数来训练模型

    注意

    如果将参数范围传递给训练模型,则它只使用单个参数列表中的默认值。

    如果将一组参数值传递给优化模型超参数组件,则当它期望每个参数有一系列设置时,它会忽略这些值,对学习器使用默认值。

    如果选择“参数范围”选项并为任何参数输入单个值,则整个整理过程中都会使用你指定的单个值,即使其他参数的值发生一系列更改

  9. 提交管道。

结果

在训练完成后:

  • 若要保存已训练模型的快照,请选择训练组件,然后切换到右侧面板中的“输出”选项卡。 单击“注册模型”图标。 可以在组件树中查找已保存为组件的模型。

后续步骤

请参阅 Azure 机器学习可用的组件集