用于 Azure 机器学习设计器的管道和数据集示例

重要

本文提供有关使用 Azure 机器学习 SDK v1 的信息。 SDK v1 自 2025 年 3 月 31 日起弃用。对它的支持将于 2026 年 6 月 30 日结束。可以在该日期之前安装和使用 SDK v1。使用 SDK v1 的现有工作流将在支持结束日期后继续运行。但是，在产品发生体系结构更改时，可能会面临安全风险或中断性变更。

建议在 2026 年 6 月 30 日之前过渡到 SDK v2。有关 SDK v2 的详细信息，请参阅什么是 Azure 机器学习 CLI 和 Python SDK v2？以及 SDK v2 参考。

可以使用 Azure 机器学习设计器中的内置示例快速开始构建自己的机器学习管道。 Azure 机器学习设计器 GitHub 存储库包含了可帮助你了解某些常见机器学习方案的详细文档。

必备条件

Azure 订阅。如果没有 Azure 订阅，请创建一个试用帐户。
一个 Azure 机器学习工作区。

重要

如果您在本文中看不到提到的图形元素，例如在 Studio 或 Designer 中的按钮，则可能是您没有适合该工作区的正确权限级别。请与 Azure 订阅管理员联系，确认是否已向你授予正确级别的访问权限。有关详细信息，请参阅管理用户和角色。

使用示例管道

设计器会将示例管道的副本保存到工作室工作区。你可以编辑管道，以根据自己的需求对其进行改编；还可以保存管道供自己使用。可以使用这些示例作为起点来快速开始生成项目。

以下介绍如何使用设计器示例：

登录到 Azure 机器学习工作室，然后选择要使用的工作区。
从边栏菜单中选择 设计器 。
选择“使用经典预生成组件创建新管道”以创建新管道。
选择“显示更多示例”查看完整的示例列表。
若要运行管道，首先需要设置用于运行管道的默认计算目标。
1. 选择画布右侧的 “管道”界面 以打开 “设置” 窗格。在+”旁边选择，然后从下拉列表中选择“计算目标”。
2. 在出现的对话框中，选择现有的计算目标或创建新的计算目标。选择“保存”。
3. 选择画布顶部的 “配置和提交 ”以提交管道作业。
根据示例管道和计算设置，作业可能需要一段时间才能完成。默认计算设置中的最小节点大小为 0，这意味着设计器必须在空闲后分配资源。重复的管道作业花费的时间会更少，因为计算资源已分配。此外，设计器还对每个组件使用缓存的结果，以便进一步提高效率。
管道运行完毕后，可以查看管道，还可以查看每个组件的输出，了解详细信息。使用以下步骤查看组件输出：
1. 右键单击画布中要查看其输出的组件。
2. 选择 “预览数据”。
从示例着手，了解一些最常见的机器学习方案。

回归

探索这些内置的回归示例。

示例管道	说明
回归 - 汽车价格预测（基本）。	使用线性回归预测汽车价格。
回归 - 汽车价格预测（高级）	使用决策林和提升决策树回归器预测汽车价格。比较模型以找出最佳算法。

分类

探索这些内置的分类示例。打开示例，了解详细信息并查看设计器中的组件注释。

示例管道	说明
通过特征选择进行二元分类 - 收入预测	使用双类提升决策树预测收入的高低。使用皮尔逊相关选择特征。
通过自定义 Python 脚本进行二元分类 - 信用风险预测	将信贷申请分类为高风险或低风险。使用“执行 Python 脚本”组件为数据加权。
二元分类 - 客户关系预测	使用双类提升决策树预测客户流失率。使用 SMOTE 对有偏差的数据采样。
文本分类 - 维基百科 SP 500 数据集	使用多类逻辑回归对维基百科文章中的公司类型进行分类。
多类分类 - 字母识别	创建二元分类器的系综，对手写字母进行分类。

计算机视觉

探索这些内置的计算机视觉示例。打开示例，了解详细信息并查看设计器中的组件注释。

示例管道	说明
使用 DenseNet 进行的图像分类	使用计算机视觉组件基于 PyTorch DenseNet 构建图像分类模型。

示例管道	说明
广泛和基于深度的建议 - 餐馆评级预测	基于餐馆/用户功能和评分构建餐馆推荐器引擎。
推荐 - 电影评级推文	基于电影/用户特征和评级生成电影推荐器引擎。

实用工具

详细了解用于演示机器学习实用工具和功能的示例。打开示例，了解详细信息并查看设计器中的组件注释。

示例管道	说明
使用 Vowpal Wabbit 模型的二元分类 - 成人收入预测	Vowpal Wabbit 是一种机器学习系统，它使用在线、哈希、allreduce、减少、learning2search、主动和交互式学习等技术推动机器学习的前沿。此示例展示了如何使用 Vowpal Wabbit 模型来构建二元分类模型。
使用自定义 R 脚本 - 航班延误预测	使用自定义 R 脚本预测所计划的客运航班是否会延迟 15 分钟以上。
二元分类的交叉验证 - 成人收入预测	使用交叉验证生成用于预测成人收入的二元分类器。
排列特征重要性	使用排列特征重要性来计算测试数据集的重要性评分。
优化二元分类的参数 - 成人收入预测	使用“优化模型超参数”找出用于生成二元分类器的最佳超参数。

数据集

在 Azure 机器学习设计器中创建新管道时，默认包含许多示例数据集。设计器主页中的示例管道使用这些示例数据集。

在管道画布左侧的“ 组件 ”选项卡中，展开 “示例数据 ”节点。将其中的任何数据集拖放到画布中即可在自己的管道中使用它们。

数据集名称	数据集说明
成年人口收入二元分类数据集	1994 年人口普查数据库的子集（其中在职人士年龄大于 16，调整后的收入指数大于 100）。使用情况：使用人口统计信息对人员分类，预测某人的年收入是否超过 5 万。相关研究：Kohavi, R.、Becker, B.（1996 年）。加州大学欧文分校的信息与计算机科学学院
汽车价格数据（原始）	有关汽车品牌和型号的信息，包括价格、汽缸数和 MPG 等特性以及保险风险评分。风险评分最初与自动定价关联。然后，针对精算师所熟知符号化过程中的实际风险进行调整。值为 +3 表明汽车存在风险，值为 -3 表明汽车可能安全。使用情况：按特性、使用回归或多元分类预测风险评分。相关研究：Schlimmer, J.C. (1987)。加州大学欧文分校的信息与计算机科学学院。
共享的 CRM 亲和力标签	来自 KDD Cup 2009 客户关系预测挑战赛的标签 (orange_small_train_appetency.labels)。
共享的 CRM 流失情况标签	来自 KDD Cup 2009 客户关系预测挑战赛的标签 (orange_small_train_churn.labels)。
共享的 CRM 追加销售标签	来自 KDD Cup 2009 客户关系预测挑战赛的标签 (orange_large_train_upselling.labels)。
餐馆特色数据	一组关于餐馆及其特色的元数据，如食物种类、就餐样式和位置。使用情况：将此数据集与其他两个餐馆数据集结合使用，以便训练和测试推荐器系统。相关研究：Bache, K. 和 Lichman, M.（2013 年）。加州大学欧文分校的信息与计算机科学学院。
餐馆评分	包含用户对餐馆的评分，分数范围从 0 到 2。使用情况：将此数据集与其他两个餐馆数据集结合使用，以便训练和测试推荐器系统。相关研究：Bache, K. 和 Lichman, M.（2013 年）。加州大学欧文分校的信息与计算机科学学院。
餐馆客户数据	一组关于客户的元数据，其中包括人口统计信息和偏好。使用情况：将此数据集与其他两个餐馆数据集结合使用，以便训练和测试推荐器系统。相关研究：Bache, K. 和 Lichman, M.（2013 年）。加州大学欧文分校的信息与计算机科学学院。
天气数据集	美国国家海洋和大气局每小时发布的陆基天气观测（从 201304 到 201310 的合并数据）。该天气数据包括从机场气象站获取的观测结果，涵盖的时间段为 2013 年 4 月到 10 月。在上传到设计器之前，数据集的处理如下所述： - 将气象站 ID 映射到相应的机场 ID - 与 70 个最繁忙的机场无关的气象站已筛选掉 - Date 列已拆分为单独的 Year、Month 和 Day 列 - 已选择以下各列：AirportID、Year、Month、Day、Time、TimeZone、SkyCondition、Visibility、WeatherType、DryBulbFarenheit、DryBulbCelsius、WetBulbFarenheit、WetBulbCelsius、DewPointFarenheit、DewPointCelsius、RelativeHumidity、WindSpeed、WindDirection、ValueForWindCharacter、StationPressure、PressureTendency、PressureChange、SeaLevelPressure、RecordType、HourlyPrecip、Altimeter
维基百科 SP 500 数据集	数据来源于维基百科，基于每个 S&P 500 公司的文章，并存储为 XML 数据。在上传到设计器之前，数据集的处理如下所述： - 提取每个具体公司的文本内容 - 去除 wiki 格式设置 - 删除非字母字符 - 将所有文本都转换为小写 - 添加了已知的公司类别请注意，对于某些公司，找不到文章，因此记录数小于 500。

清理资源

重要

可以使用你创建的、用作其他 Azure 机器学习教程和操作指南文章的先决条件的资源。

删除所有内容

如果你不打算使用所创建的任何内容，请删除整个资源组，以免产生任何费用。

在 Azure 门户中，选择 Azure 服务下的资源组。
选择创建的资源组。
选择“删除资源组”。

删除该资源组也会删除在设计器中创建的所有资源。

删除各项资产

在创建试验的设计器中删除各个资产，方法是将其选中，然后选择“删除”按钮。

此处创建的计算目标在未使用时，会自动缩减到零个节点。此操作旨在最大程度地减少费用。若要删除计算目标，请执行以下步骤：

显示如何删除资产的屏幕截图。

若要删除数据集，请使用 Azure 门户或 Azure 存储资源管理器访问存储帐户，然后手动删除这些资产。

通过教程了解预测分析和机器学习的基础知识：设计器 - 训练无代码回归模型

Last updated on 2026-01-04

通过