共用方式為

在 Azure 机器学习设计器中转换数据

重要

本文提供有关使用 Azure 机器学习 SDK v1 的信息。 SDK v1 自 2025 年 3 月 31 日起弃用。 对它的支持将于 2026 年 6 月 30 日结束。 可以在该日期之前安装和使用 SDK v1。

建议在 2026 年 6 月 30 日之前过渡到 SDK v2。 有关 SDK v2 的详细信息,请参阅 什么是 Azure 机器学习 CLI 和 Python SDK v2? 以及 SDK v2 参考

本文介绍如何在 Azure 机器学习设计器中转换和保存数据集,从而为机器学习准备好自己的数据。

你将使用示例 成人人口普查收入二元分类 数据集来准备两个数据集。 一个数据集包括来自美国的成人人口普查信息,另一个数据集包括来自非美国成年人的人口普查信息。

在这篇文章中,你将学会如何:

  • 转换数据集以准备用于训练。
  • 将生成的数据集导出到数据存储。
  • 查看结果。

本指南是使用管道输入重新训练模型本文档的先决条件。 本文介绍如何使用转换后的数据集通过管道输入训练多个模型。

重要

如果看不到本文档中提到的图形元素(例如工作室或设计器中的按钮),则你可能没有适当级别的工作区权限。 请与 Azure 订阅管理员联系,确认是否已向你授予正确级别的访问权限。 有关详细信息,请参阅管理用户和角色

转换数据集

本部分介绍如何导入示例数据集,并将数据拆分为美国和非美国数据集。 有关详细信息,请参阅 将数据导入 Azure 机器学习设计器

导入数据

按照以下步骤导入示例数据集:

  1. 登录到 Azure 机器学习工作室,然后选择要使用的工作区。

  2. 从边栏菜单中选择 设计器 。 在 “经典预生成”下,选择 “使用经典预生成组件创建新管道”。

  3. 在管道画布左侧的“ 组件 ”选项卡中,展开 “示例数据 ”节点。

  4. 成人人口普查收入二元分类 数据集拖放到画布上。

  5. 右键单击 “成人人口普查收入 ”数据集组件,然后选择 “预览数据”。

  6. 使用数据预览窗口浏览数据集。 请特别注意 原籍国 列值。

拆分数据

使用“拆分数据”组件标识和拆分在“native-country”列中包含“United-States”的行

  1. 在画布左侧的组件选项卡中,展开 “数据转换 ”部分,找到 “拆分数据 ”组件。

  2. 拆分数据 组件拖到画布上,然后将该组件拖放到数据集组件下方。

  3. 将数据集组件的输出连接到 拆分数据 组件的输入。

  4. 双击 “拆分数据 ”组件以打开 “拆分数据 ”窗格。

  5. 拆分模式 设置为 正则表达式

  6. 输入 正则表达式\"native-country" United-States

    “正则表达式”模式对值测试单列。 有关拆分数据组件的详细信息,请访问相关 算法组件参考页

你的管道应如此屏幕截图所示:

显示如何配置管道和拆分数据组件的屏幕截图。

保存数据集

设置管道以拆分数据后,必须指定保存数据集的位置。 对于此示例,请使用“导出数据”组件将数据集保存到数据存储。 有关数据存储的详细信息,请参阅 “连接到 Azure 存储服务”。

  1. 在组件面板的画布左侧,展开 “数据输入和输出 ”部分,并查找 “导出数据 ”组件。

  2. 拆分数据组件下方拖放两个导出数据组件。

  3. 拆分数据 组件的每个输出端口连接到不同的 导出数据 组件。

    管道应如下所示:

    显示如何连接导出数据组件的屏幕截图。

  4. 双击连接到拆分数据组件的最左侧端口的“导出数据”组件,打开“导出数据配置”窗格。

    对于“拆分数据”组件,输出端口的顺序很重要。 第一个输出端口包含正则表达式为 true 的行。 在这种情况下,第一个端口包含基于美国的收入的行,第二个端口包含非美国收入的行。

    • 设置下列选项:

      数据存储类型:Azure Blob 存储

      数据存储:选择现有数据存储,或选择 “新建数据存储 ”以创建新数据存储

      输出路径/data/us-income

      文件格式:csv

    注意

    本文假设你有权访问注册到当前 Azure 机器学习工作区的数据存储。 有关数据存储设置说明,请参阅 “连接到 Azure 存储服务”。

    您可以创建数据存储,如果您还没有。 例如,本文会将数据集保存到与工作区关联的默认 blob 存储帐户。 它将数据集保存到 azureml 容器中的一个名为 data 的新文件夹。

  5. 双击连接到拆分数据组件最右侧端口的“导出数据”组件,打开“导出数据配置”窗格。

    • 设置下列选项:

      数据存储类型:Azure Blob 存储

      数据存储:选择以前的数据存储

      输出路径/data/non-us-income

      文件格式:csv

  6. 验证连接在拆分数据左侧端口的导出数据组件是否具有路径/data/us-income

  7. 验证连接到正确端口的 导出数据 组件是否具有 路径/data/non-us-income

    管道和设置应如下所示:

    显示如何配置导出数据组件的屏幕截图。

提交作业

设置管道以拆分和导出数据后,提交管道作业。

  1. 选择画布顶部的 “配置和提交 ”。

  2. “管道作业设置”的“基础”窗格中选择“创建新”选项以创建试验。

    试验将相关管道作业以逻辑方式分组在一起。 如果将来运行此管道,则应使用相同的试验进行日志记录和跟踪。

  3. 提供描述性实验名称,例如 拆分-人口普查数据

  4. “运行时设置 ”窗格中,选择或创建计算资源。

  5. 选择 “审阅 + 提交”,然后选择“ 提交”。

查看结果

管道运行完成后,可导航到 Azure 门户 Blob 存储来查看结果。 还可以查看“拆分数据”组件的中间结果,以确认数据正确拆分。

  1. 从边栏菜单中选择 “作业 ”,然后选择作业。

  2. 双击 “拆分数据 ”组件。

  3. 在画布右侧的组件详细信息窗格中,选择“ 输出 + 日志 ”选项卡。

  4. 选择“ 显示数据输出 ”下拉列表。

  5. 选择 结果数据集 1 旁边的可视化图标。

    显示组件详细信息窗格中的“拆分数据结果数据集”的屏幕截图。

  6. 验证 来源国家 列中仅包含值 美国

  7. 选择visualize iconvisualize icon结果数据集2旁边的。

  8. 验证 原籍国 列中不包含 美国 的值。

清理资源

若要继续 本指南的第二部分,请跳过本部分。

重要

可以使用你创建的、用作其他 Azure 机器学习教程和操作指南文章的先决条件的资源。

删除所有内容

如果你不打算使用所创建的任何内容,请删除整个资源组,以免产生任何费用。

  1. Azure 门户中,选择 Azure 服务下的资源组

  2. 选择创建的资源组。

  3. 选择“删除资源组”。

    显示用于在 Azure 门户中删除资源组的按钮的屏幕截图。

删除该资源组也会删除在设计器中创建的所有资源。

删除各项资产

在创建试验的设计器中删除各个资产,方法是将其选中,然后选择“删除”按钮。

此处创建的计算目标在未使用时,会自动缩减到零个节点。 此操作旨在最大程度地减少费用。 若要删除计算目标,请执行以下步骤:

显示如何删除资产的屏幕截图。

若要删除数据集,请使用 Azure 门户或 Azure 存储资源管理器访问存储帐户,然后手动删除这些资产。

后续步骤

继续学习本作说明系列的下一部分。