“在数据集中选择列”组件

本文介绍 Azure 机器学习设计器中的一个组件。

使用此组件可以选择要在下游操作中使用的列的子集。 组件不是从物理上删除源数据集中的列,而是创建列的子集,这与数据库视图或投影非常类似。

如果需要限制可用于下游操作的列,或者想要通过删除不需要的列来缩小数据集,则此组件非常有用。

数据集中的列的输出顺序和原始数据中的相同,即使你以不同的顺序指定它们,也是如此。

如何使用

此组件没有参数。 可使用列选择器选择要包含或排除的列。

按名称选择列

组件中有多个选项可用于按名称选择列:

  • 筛选和搜索

    单击“按名称”选项 。

    如果连接的数据集已填充,则应显示可用列的列表。 如果未显示任何列,则可能需要运行上游组件来查看列列表。

    请在搜索框中键入内容以筛选列表。 例如,如果在搜索框中键入字母 w,则会对列表进行筛选,以显示包含字母 w 的列名称。

    选择这些列,然后单击右箭头按钮,将选中的列移到右窗格中的列表中。

    • 若要选择列名称的连续范围,请按住 Shift 并单击 。
    • 若要将单独的列添加到所选内容,请按住 Ctrl 并单击 。

    单击复选标记按钮,保存并关闭。

  • 结合其他规则使用名称

    单击“按规则”选项 。

    选择一种规则,如显示特定数据类型的列。

    然后,单击该类型的单个列的名称,将其添加到所选内容列表。

  • 键入或粘贴用逗号分隔的列名称列表

    如果数据集范围宽,则使用索引或生成的名称列表可能更简单,而不是单独选择列。 假设你提前准备好了列表:

    1. 单击“按规则”选项 。
    2. 选择“没有列”,再选择“包括”,然后在文本框中单击红色感叹号。
    3. 粘贴或键入之前确认的以逗号分隔的列名称列表。 如果有任何列的名称无效,则无法保存该组件,因此请务必事先检查名称。

    你也可以使用此方法来指定使用其索引值的列的列表。

按类型选择

如果使用“按规则”选项,则可以对列所选内容应用多个条件 。 例如,你可能只需要获取数值数据类型的功能列。

可通过“开头为”选项确定你的起点,该选项对于了解结果来说很重要 。

  • 如果选择“所有列”选项,则所有列都将添加到列表中 。 然后,必须使用“排除”选项删除满足特定条件的列 。

    例如,可以从所有列开始,然后按名称或按类型删除列。

  • 如果选择“没有列”选择,则列的列表为空 。 然后指定条件以向列表添加列 。

    如果应用多个规则,则每个条件都是累加的 。 例如,假设从没有列开始,然后添加一个规则来获取所有数字列。 在汽车价格数据集中生成 16 列。 然后,单击 + 符号以添加新条件,再选择“包含所有功能”。 生成的数据集包括所有数字列以及所有功能列,并包含一些字符串功能列。

按列索引选择

列索引是指原始数据集中的列顺序。

  • 列从 1 开始按顺序编号。
  • 若要获取列的范围,请使用连字符。
  • 不允许使用开放式的规范,如 1--3
  • 不允许使用重复的索引值(或列名称),否则可能导致错误。

例如,假设你的数据集至少有八列,则可以粘贴以下任意示例以返回多个非相邻的列:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

最后的示例不会导致错误;但是它将返回列的单个实例 4

更改列的顺序

选项“允许重复项并在所选内容中保留列顺序”从空列表开始,然后添加按名称或索引指定的列 。 与其他选项不同,它们始终按“自然顺序”返回列,而此选项按你指定或列出的列顺序输出列。

例如,在包含列 Col1、Col2、Col3 和 Col4 的数据集中,可以通过指定以下列表之一来反转列的顺序并排除列 2:

  • Col4, Col3, Col1
  • 4,3,1

后续步骤

请参阅 Azure 机器学习可用的组件集