“手动输入数据”组件

本文介绍 Azure 机器学习设计器中的一个组件。

使用“手动输入数据”组件以通过键入值来创建小型数据集。 该数据集可以有多个列。

此组件在如下所述的方案中非常有用:

  • 生成一小组值用于测试。
  • 创建简短的标签列表。
  • 键入要在数据集中插入的列名的列表。

创建数据集

  1. 手动输入数据组件添加到管道。 可以在 Azure 机器学习的“数据输入和输出”类别中找到此组件。

  2. 对于“DataFormat” ,选择以下选项之一。 这些选项决定了应该如何分析你提供的数据。 每种格式的要求差别很大,因此请务必阅读相关主题。

    • ARFF:Weka 使用的属性-关系文件格式。
    • CSV:逗号分隔值格式。 有关详细信息,请参阅转换为 CSV
    • SVMLight:Vowpal Wabbit 和其他机器学习框架使用的一种格式。
    • TSV:制表符分隔值格式。

    如果你选择了某种格式,但是未提供满足格式规范的数据,则会发生运行时错误。

  3. 在“数据” 文本框内单击以开始输入数据。 以下格式需要特别注意:

    • CSV:若要创建多个列,请粘贴逗号分隔的文本,或者键入多个列并在字段之间使用逗号。

      如果选择“HasHeader” 选项,则可以使用第一行值作为列标题。

      如果取消选择此选项,将使用列名(Col1、Col2,等等)。 稍后可以使用编辑元数据来添加或更改列名。

    • TSV:若要创建多个列,请粘贴制表符分隔的文本,或者键入多个列并在字段之间使用制表符。

      如果选择“HasHeader” 选项,则可以使用第一行值作为列标题。

      如果取消选择此选项,将使用列名(Col1、Col2,等等)。 稍后可以使用编辑元数据来添加或更改列名。

    • ARFF:粘贴现有的 ARFF 格式文件。 如果直接键入值,请确保在数据的开头添加可选的标题和必需的属性字段。

      例如,可以将以下标题和属性行添加到一个简单列表中。 列标题将是 SampleText。 请注意,不支持字符串类型。

      % Title: SampleText.ARFF  
      % Source: Enter Data component  
      @ATTRIBUTE SampleText NUMERIC  
      @DATA  
      \<type first data row here>  
      
    • SVMLight:使用 SVMLight 格式键入或粘贴值。

      例如,下面的示例以 SVMLight 格式表示 Blood Donation 数据集的前两行:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      运行手动输入数据组件时,这些行会转换为列和索引值的数据集,如下所示:

      Col1 Col2 Col3 Col4 标签
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. 在每行后面选择 Enter 键,以便另起一行。

    如果多次选择 Enter 来添加多个空的尾随行,则会删除或剪裁空行。

    如果创建包含缺失值的行,则稍后随时可以将其筛选出来。

  5. 将输出端口连接到其他组件,并运行管道。

    若要查看数据集,请右键单击组件,然后选择“可视化”。

后续步骤

请参阅 Azure 机器学习可用的组件集