在 Azure 机器学习设计器中转换数据

重要

本文提供有关使用 Azure 机器学习 SDK v1 的信息。 自 2025 年 3 月 31 日起,SDK v1 已弃用,其支持将于 2026 年 6 月 30 日结束。 可以在该日期之前安装和使用 SDK v1。

建议在 2026 年 6 月 30 日之前过渡到 SDK v2。 有关 SDK v2 的详细信息,请参阅 什么是 Azure 机器学习 Python SDK v2SDK v2 参考

本文介绍如何在 Azure 机器学习设计器中转换和保存数据集,从而为机器学习准备好自己的数据。

你将使用示例 成人人口普查收入二元分类 数据集来准备两个数据集。 一个数据集包括来自美国的成人人口普查信息,另一个数据集包括来自非美国成年人的人口普查信息。

在这篇文章中,你将学会如何:

  • 转换数据集以准备用于训练。
  • 将生成的数据集导出到数据存储。
  • 查看结果。

本指南是使用管道输入重新训练模型本文档的先决条件。 本文介绍如何使用转换后的数据集通过管道输入训练多个模型。

重要

如果看不到本文档中提到的图形元素(例如工作室或设计器中的按钮),则你可能没有适当级别的工作区权限。 请与 Azure 订阅管理员联系,确认是否已向你授予正确级别的访问权限。 有关详细信息,请参阅管理用户和角色

转换数据集

本部分介绍如何导入示例数据集,并将数据拆分为美国和非美国数据集。 有关详细信息,请参阅 将数据导入 Azure 机器学习设计器

导入数据

按照以下步骤导入示例数据集:

  1. 登录到 Azure 机器学习工作室,然后选择要使用的工作区。

  2. 从边栏菜单中选择 设计器 。 在 “经典预生成”下,选择 “使用经典预生成组件创建新管道”。

  3. 在管道画布左侧的“ 组件 ”选项卡中,展开 “示例数据 ”节点。

  4. 成人人口普查收入二元分类 数据集拖放到画布上。

  5. 右键单击 “成人人口普查收入 ”数据集组件,然后选择 “预览数据”。

  6. 使用数据预览窗口浏览数据集。 请特别注意 原籍国 列值。

拆分数据

使用“拆分数据”组件标识和拆分在“native-country”列中包含“United-States”的行

  1. 在画布左侧的组件选项卡中,展开 “数据转换 ”部分,找到 “拆分数据 ”组件。

  2. 拆分数据 组件拖到画布上,然后将该组件拖放到数据集组件下方。

  3. 将数据集组件的输出连接到 拆分数据 组件的输入。

  4. 双击 “拆分数据 ”组件以打开 “拆分数据 ”窗格。

  5. 拆分模式 设置为 正则表达式

  6. 输入 正则表达式\"native-country" United-States

    “正则表达式”模式对值测试单列。 有关拆分数据组件的详细信息,请访问相关 算法组件参考页

你的管道应如此屏幕截图所示:

显示如何配置管道和拆分数据组件的屏幕截图。

保存数据集

设置管道以拆分数据后,必须指定保存数据集的位置。 对于此示例,请使用“导出数据”组件将数据集保存到数据存储。 有关数据存储的详细信息,请参阅 “连接到 Azure 存储服务”。

  1. 在组件面板的画布左侧,展开 “数据输入和输出 ”部分,并查找 “导出数据 ”组件。

  2. 拆分数据组件下方拖放两个导出数据组件。

  3. 拆分数据 组件的每个输出端口连接到不同的 导出数据 组件。

    管道应如下所示:

    显示如何连接导出数据组件的屏幕截图。

  4. 双击连接到拆分数据组件的最左侧端口的“导出数据”组件,打开“导出数据配置”窗格。

    对于“拆分数据”组件,输出端口的顺序很重要。 第一个输出端口包含正则表达式为 true 的行。 在这种情况下,第一个端口包含基于美国的收入的行,第二个端口包含非美国收入的行。

    • 设置下列选项:

      数据存储类型:Azure Blob 存储

      数据存储:选择现有数据存储,或选择 “新建数据存储 ”以创建新数据存储

      输出路径/data/us-income

      文件格式:csv

    注意

    本文假设你有权访问注册到当前 Azure 机器学习工作区的数据存储。 有关数据存储设置说明,请参阅 “连接到 Azure 存储服务”。

    您可以创建数据存储,如果您还没有。 例如,本文会将数据集保存到与工作区关联的默认 blob 存储帐户。 它将数据集保存到 azureml 容器中的一个名为 data 的新文件夹。

  5. 双击连接到拆分数据组件最右侧端口的“导出数据”组件,打开“导出数据配置”窗格。

    • 设置下列选项:

      数据存储类型:Azure Blob 存储

      数据存储:选择以前的数据存储

      输出路径/data/non-us-income

      文件格式:csv

  6. 验证连接在拆分数据左侧端口的导出数据组件是否具有路径/data/us-income

  7. 验证连接到正确端口的 导出数据 组件是否具有 路径/data/non-us-income

    管道和设置应如下所示:

    显示如何配置导出数据组件的屏幕截图。

提交作业

设置管道以拆分和导出数据后,提交管道作业。

  1. 选择画布顶部的 “配置和提交 ”。

  2. “管道作业设置”的“基础”窗格中选择“创建新”选项以创建试验。

    试验将相关管道作业以逻辑方式分组在一起。 如果将来运行此管道,则应使用相同的试验进行日志记录和跟踪。

  3. 提供描述性实验名称,例如 拆分-人口普查数据

  4. “运行时设置 ”窗格中,选择或创建计算资源。

  5. 选择 “审阅 + 提交”,然后选择“ 提交”。

查看结果

管道运行完成后,可导航到 Azure 门户 Blob 存储来查看结果。 还可以查看“拆分数据”组件的中间结果,以确认数据正确拆分。

  1. 从边栏菜单中选择 “作业 ”,然后选择作业。

  2. 双击 “拆分数据 ”组件。

  3. 在画布右侧的组件详细信息窗格中,选择“ 输出 + 日志 ”选项卡。

  4. 选择“ 显示数据输出 ”下拉列表。

  5. 选择 结果数据集 1 旁边的可视化图标。

    显示组件详细信息窗格中的“拆分数据结果数据集”的屏幕截图。

  6. 验证 来源国家 列中仅包含值 美国

  7. 选择visualize icon结果数据集2旁边的

  8. 验证 原籍国 列中不包含 美国 的值。

清理资源

若要继续 本指南的第二部分,请跳过本部分。

重要

可以使用你创建的、用作其他 Azure 机器学习教程和操作指南文章的先决条件的资源。

删除所有内容

如果你不打算使用所创建的任何内容,请删除整个资源组,以免产生任何费用。

  1. 在 Azure 门户的窗口左侧选择“资源组”

    在 Azure 门户中删除资源组

  2. 在列表中选择你创建的资源组。

  3. 选择“删除资源组”。

删除该资源组也会删除在设计器中创建的所有资源。

删除各项资产

在创建试验的设计器中删除各个资产,方法是将其选中,然后选择“删除”按钮。

此处创建的计算目标在未使用时,会自动缩减到零个节点。 采取此操作可最大程度地减少费用。如果要删除计算目标,请执行以下步骤:

删除资产

可以通过选择每个数据集并选择“注销”,从工作区中注销数据集。

取消注册数据集

若要删除数据集,请使用 Azure 门户或 Azure 存储资源管理器访问存储帐户,然后手动删除这些资产。

后续步骤

继续学习本作说明系列的下一部分。