在 Azure 机器学习设计器中转换数据

2025-07-17

重要

本文提供有关使用 Azure 机器学习 SDK v1 的信息。 SDK v1 自 2025 年 3 月 31 日起弃用。对它的支持将于 2026 年 6 月 30 日结束。可以在该日期之前安装和使用 SDK v1。使用 SDK v1 的现有工作流将在支持结束日期后继续运行。但是，在产品发生体系结构更改时，可能会面临安全风险或中断性变更。

建议在 2026 年 6 月 30 日之前过渡到 SDK v2。有关 SDK v2 的详细信息，请参阅什么是 Azure 机器学习 CLI 和 Python SDK v2？以及 SDK v2 参考。

本文介绍如何在 Azure 机器学习设计器中转换和保存数据集，从而为机器学习准备好自己的数据。

你将使用示例成人人口普查收入二元分类数据集来准备两个数据集。一个数据集包括来自美国的成人人口普查信息，另一个数据集包括来自非美国成年人的人口普查信息。

在这篇文章中，你将学会如何：

转换数据集以准备用于训练。
将生成的数据集导出到数据存储。
查看结果。

本指南是使用管道输入重新训练模型本文档的先决条件。本文介绍如何使用转换后的数据集通过管道输入训练多个模型。

重要

如果看不到本文档中提到的图形元素（例如工作室或设计器中的按钮），则你可能没有适当级别的工作区权限。请与 Azure 订阅管理员联系，确认是否已向你授予正确级别的访问权限。有关详细信息，请参阅管理用户和角色。

转换数据集

本部分介绍如何导入示例数据集，并将数据拆分为美国和非美国数据集。有关详细信息，请参阅将数据导入 Azure 机器学习设计器。

导入数据

按照以下步骤导入示例数据集：

登录到 Azure 机器学习工作室，然后选择要使用的工作区。
从边栏菜单中选择 设计器 。在 “经典预生成”下，选择 “使用经典预生成组件创建新管道”。
在管道画布左侧的“ 组件 ”选项卡中，展开 “示例数据 ”节点。
将 成人人口普查收入二元分类 数据集拖放到画布上。
右键单击 “成人人口普查收入 ”数据集组件，然后选择 “预览数据”。
使用数据预览窗口浏览数据集。请特别注意 原籍国 列值。

拆分数据

使用“拆分数据”组件标识和拆分在“native-country”列中包含“United-States”的行。

在画布左侧的组件选项卡中，展开 “数据转换 ”部分，找到 “拆分数据 ”组件。
将 拆分数据 组件拖到画布上，然后将该组件拖放到数据集组件下方。
将数据集组件的输出连接到 拆分数据 组件的输入。
双击 “拆分数据 ”组件以打开 “拆分数据 ”窗格。
将 拆分模式 设置为 正则表达式。
输入 正则表达式： \"native-country" United-States。

“正则表达式”模式对值测试单列。有关拆分数据组件的详细信息，请访问相关算法组件参考页。

你的管道应如此屏幕截图所示：

保存数据集

设置管道以拆分数据后，必须指定保存数据集的位置。对于此示例，请使用“导出数据”组件将数据集保存到数据存储。有关数据存储的详细信息，请参阅 “连接到 Azure 存储服务”。

在组件面板的画布左侧，展开 “数据输入和输出 ”部分，并查找 “导出数据 ”组件。
在拆分数据组件下方拖放两个导出数据组件。
将 拆分数据 组件的每个输出端口连接到不同的 导出数据 组件。

管道应如下所示：
双击连接到拆分数据组件的最左侧端口的“导出数据”组件，打开“导出数据配置”窗格。

对于“拆分数据”组件，输出端口的顺序很重要。第一个输出端口包含正则表达式为 true 的行。在这种情况下，第一个端口包含基于美国的收入的行，第二个端口包含非美国收入的行。
- 设置下列选项：
  
  数据存储类型：Azure Blob 存储
  
  数据存储：选择现有数据存储，或选择 “新建数据存储 ”以创建新数据存储
  
  输出路径： /data/us-income
  
  文件格式：csv
注意

本文假设你有权访问注册到当前 Azure 机器学习工作区的数据存储。有关数据存储设置说明，请参阅 “连接到 Azure 存储服务”。

您可以创建数据存储，如果您还没有。例如，本文会将数据集保存到与工作区关联的默认 blob 存储帐户。它将数据集保存到 azureml 容器中的一个名为 data 的新文件夹。
双击连接到拆分数据组件最右侧端口的“导出数据”组件，打开“导出数据配置”窗格。
- 设置下列选项：
  
  数据存储类型：Azure Blob 存储
  
  数据存储：选择以前的数据存储
  
  输出路径： /data/non-us-income
  
  文件格式：csv
验证连接在拆分数据左侧端口的导出数据组件是否具有路径/data/us-income。
验证连接到正确端口的 导出数据 组件是否具有路径/data/non-us-income。

管道和设置应如下所示：

提交作业

设置管道以拆分和导出数据后，提交管道作业。

选择画布顶部的 “配置和提交 ”。
在“管道作业设置”的“基础”窗格中选择“创建新”选项以创建试验。

试验将相关管道作业以逻辑方式分组在一起。如果将来运行此管道，则应使用相同的试验进行日志记录和跟踪。
提供描述性实验名称，例如 拆分-人口普查数据。
在 “运行时设置 ”窗格中，选择或创建计算资源。
选择 “审阅 + 提交”，然后选择“ 提交”。

查看结果

管道运行完成后，可导航到 Azure 门户 Blob 存储来查看结果。还可以查看“拆分数据”组件的中间结果，以确认数据正确拆分。

从边栏菜单中选择 “作业 ”，然后选择作业。
双击 “拆分数据 ”组件。
在画布右侧的组件详细信息窗格中，选择“ 输出 + 日志 ”选项卡。
选择“ 显示数据输出 ”下拉列表。
选择 结果数据集 1 旁边的可视化图标。
验证 来源国家 列中仅包含值美国。
选择visualize icon结果数据集2旁边的。
验证 原籍国 列中不包含美国的值。

清理资源

若要继续本指南的第二部分，请跳过本部分。

重要

可以使用你创建的、用作其他 Azure 机器学习教程和操作指南文章的先决条件的资源。

删除所有内容

如果你不打算使用所创建的任何内容，请删除整个资源组，以免产生任何费用。

在 Azure 门户中，选择 Azure 服务下的资源组。
选择创建的资源组。
选择“删除资源组”。

删除该资源组也会删除在设计器中创建的所有资源。

删除各项资产

在创建试验的设计器中删除各个资产，方法是将其选中，然后选择“删除”按钮。

此处创建的计算目标在未使用时，会自动缩减到零个节点。此操作旨在最大程度地减少费用。若要删除计算目标，请执行以下步骤：

显示如何删除资产的屏幕截图。

若要删除数据集，请使用 Azure 门户或 Azure 存储资源管理器访问存储帐户，然后手动删除这些资产。

后续步骤

继续学习本作说明系列的下一部分。

使用管道输入重新训练模型

Compartir a través de