组件:将数据分配到群集

本文介绍如何在 Azure 机器学习设计器中使用“将数据分配到群集”组件。 该组件通过使用“K-Means 群集”算法训练的聚类分析模型来生成预测。

“将数据分配到群集”组件会返回一个数据集,其中包含每个新数据点可能的分配。

如何使用“将数据分配到群集”

  1. 在 Azure 机器学习设计器中,找到先前训练的聚类分析模型。 可以使用以下方法之一创建和训练聚类分析模型:

    • 使用 K-Means 群集组件配置 K-Means 群集算法,并使用数据集和“训练聚类分析模型”组件训练模型(文本)。

    • 还可以从工作区中的“保存的模型” 组添加现有的已训练聚类分析模型。

  2. 将训练的模型附加到“将数据分配到群集”的左侧输入端口。

  3. 将新的数据集作为输入附加。

    在此数据集中,标签为可选。 通常情况下,聚类分析是一种无人监督的学习方法。 你不会提前知道这些类别。 但是,输入列必须与在训练聚类分析模型时使用的列相同,否则会发生错误。

    提示

    若要减少从群集预测写入设计器的列数,请使用选择数据集中的列,然后选择列的子集。

  4. 如果希望结果包含完整的输入数据集(包括显示结果的列(群集分配)),请让“选中以便进行追加,或者取消选中以便只获取结果”复选框保持选中状态。

    如果清除此复选框,则仅返回结果。 将预测作为 Web 服务的一部分创建时,可以使用此选项。

  5. 提交管道。

结果

  • 若要查看数据集中的值,请右键单击组件,然后选择“可视化”。 或者选择该组件并切换到右侧面板中的“输出”选项卡,单击“端口输出”中的直方图图标以直观显示结果。