重要
本文提供有关使用 Azure 机器学习 SDK v1 的信息。 自 2025 年 3 月 31 日起,SDK v1 已弃用,其支持将于 2026 年 6 月 30 日结束。 可以在该日期之前安装和使用 SDK v1。
建议在 2026 年 6 月 30 日之前过渡到 SDK v2。 有关 SDK v2 的详细信息,请参阅 什么是 Azure 机器学习 Python SDK v2 和 SDK v2 参考。
本文介绍如何在 Azure 机器学习设计器中转换和保存数据集,从而为机器学习准备好自己的数据。
你将使用示例 成人人口普查收入二元分类 数据集来准备两个数据集。 一个数据集包括来自美国的成人人口普查信息,另一个数据集包括来自非美国成年人的人口普查信息。
在这篇文章中,你将学会如何:
- 转换数据集以准备用于训练。
- 将生成的数据集导出到数据存储。
- 查看结果。
本指南是使用管道输入重新训练模型本文档的先决条件。 本文介绍如何使用转换后的数据集通过管道输入训练多个模型。
重要
如果看不到本文档中提到的图形元素(例如工作室或设计器中的按钮),则你可能没有适当级别的工作区权限。 请与 Azure 订阅管理员联系,确认是否已向你授予正确级别的访问权限。 有关详细信息,请参阅管理用户和角色。
转换数据集
本部分介绍如何导入示例数据集,并将数据拆分为美国和非美国数据集。 有关详细信息,请参阅 将数据导入 Azure 机器学习设计器。
导入数据
按照以下步骤导入示例数据集:
登录到 Azure 机器学习工作室,然后选择要使用的工作区。
从边栏菜单中选择 设计器 。 在 “经典预生成”下,选择 “使用经典预生成组件创建新管道”。
在管道画布左侧的“ 组件 ”选项卡中,展开 “示例数据 ”节点。
将 成人人口普查收入二元分类 数据集拖放到画布上。
右键单击 “成人人口普查收入 ”数据集组件,然后选择 “预览数据”。
使用数据预览窗口浏览数据集。 请特别注意 原籍国 列值。
拆分数据
使用“拆分数据”组件标识和拆分在“native-country”列中包含“United-States”的行。
在画布左侧的组件选项卡中,展开 “数据转换 ”部分,找到 “拆分数据 ”组件。
将 拆分数据 组件拖到画布上,然后将该组件拖放到数据集组件下方。
将数据集组件的输出连接到 拆分数据 组件的输入。
双击 “拆分数据 ”组件以打开 “拆分数据 ”窗格。
将 拆分模式 设置为 正则表达式。
输入 正则表达式:
\"native-country" United-States
。“正则表达式”模式对值测试单列。 有关拆分数据组件的详细信息,请访问相关 算法组件参考页 。
你的管道应如此屏幕截图所示:
保存数据集
设置管道以拆分数据后,必须指定保存数据集的位置。 对于此示例,请使用“导出数据”组件将数据集保存到数据存储。 有关数据存储的详细信息,请参阅 “连接到 Azure 存储服务”。
在组件面板的画布左侧,展开 “数据输入和输出 ”部分,并查找 “导出数据 ”组件。
在拆分数据组件下方拖放两个导出数据组件。
将 拆分数据 组件的每个输出端口连接到不同的 导出数据 组件。
管道应如下所示:
双击连接到拆分数据组件的最左侧端口的“导出数据”组件,打开“导出数据配置”窗格。
对于“拆分数据”组件,输出端口的顺序很重要。 第一个输出端口包含正则表达式为 true 的行。 在这种情况下,第一个端口包含基于美国的收入的行,第二个端口包含非美国收入的行。
设置下列选项:
数据存储类型:Azure Blob 存储
数据存储:选择现有数据存储,或选择 “新建数据存储 ”以创建新数据存储
输出路径:
/data/us-income
文件格式:csv
注意
本文假设你有权访问注册到当前 Azure 机器学习工作区的数据存储。 有关数据存储设置说明,请参阅 “连接到 Azure 存储服务”。
您可以创建数据存储,如果您还没有。 例如,本文会将数据集保存到与工作区关联的默认 blob 存储帐户。 它将数据集保存到
azureml
容器中的一个名为data
的新文件夹。双击连接到拆分数据组件最右侧端口的“导出数据”组件,打开“导出数据配置”窗格。
设置下列选项:
数据存储类型:Azure Blob 存储
数据存储:选择以前的数据存储
输出路径:
/data/non-us-income
文件格式:csv
验证连接在拆分数据左侧端口的导出数据组件是否具有路径
/data/us-income
。验证连接到正确端口的 导出数据 组件是否具有 路径
/data/non-us-income
。管道和设置应如下所示:
提交作业
设置管道以拆分和导出数据后,提交管道作业。
选择画布顶部的 “配置和提交 ”。
在“管道作业设置”的“基础”窗格中选择“创建新”选项以创建试验。
试验将相关管道作业以逻辑方式分组在一起。 如果将来运行此管道,则应使用相同的试验进行日志记录和跟踪。
提供描述性实验名称,例如 拆分-人口普查数据。
在 “运行时设置 ”窗格中,选择或创建计算资源。
选择 “审阅 + 提交”,然后选择“ 提交”。
查看结果
管道运行完成后,可导航到 Azure 门户 Blob 存储来查看结果。 还可以查看“拆分数据”组件的中间结果,以确认数据正确拆分。
从边栏菜单中选择 “作业 ”,然后选择作业。
双击 “拆分数据 ”组件。
在画布右侧的组件详细信息窗格中,选择“ 输出 + 日志 ”选项卡。
选择“ 显示数据输出 ”下拉列表。
选择 结果数据集 1 旁边的可视化图标。
验证 来源国家 列中仅包含值 美国。
选择
结果数据集2旁边的。
验证 原籍国 列中不包含 美国 的值。
清理资源
若要继续 本指南的第二部分,请跳过本部分。
重要
可以使用你创建的、用作其他 Azure 机器学习教程和操作指南文章的先决条件的资源。
删除所有内容
如果你不打算使用所创建的任何内容,请删除整个资源组,以免产生任何费用。
在 Azure 门户的窗口左侧选择“资源组”。
在列表中选择你创建的资源组。
选择“删除资源组”。
删除该资源组也会删除在设计器中创建的所有资源。
删除各项资产
在创建试验的设计器中删除各个资产,方法是将其选中,然后选择“删除”按钮。
此处创建的计算目标在未使用时,会自动缩减到零个节点。 采取此操作可最大程度地减少费用。如果要删除计算目标,请执行以下步骤:
可以通过选择每个数据集并选择“注销”,从工作区中注销数据集。
若要删除数据集,请使用 Azure 门户或 Azure 存储资源管理器访问存储帐户,然后手动删除这些资产。
后续步骤
继续学习本作说明系列的下一部分。