Azure 机器学习设计器的算法和组件参考

注意

设计器支持两种类型的组件：经典预生成组件和自定义组件。这两种类型的组件不兼容。

经典预生成组件主要为数据处理和传统的机器学习任务（如回归和分类）提供预生成组件。此类型的组件将继续受支持，但不会增加任何新组件。

自定义组件允许你以组件的形式提供自己的代码。它支持跨工作区共享，以及跨 Studio、CLI 和 SDK 接口进行无缝创作。

本文适用于经典预生成组件。

此参考内容提供有关 Azure 机器学习设计器中可用的每个经典预生成组件的技术背景。

每个组件均表示一组可以独立运行并可根据所需输入来执行机器学习任务的代码。组件可能包含特定的算法，或者可能执行在机器学习中非常重要的任务，如替换缺少的值或进行统计分析。

有关选择算法的帮助，请参阅

提示

在设计器的任何管道中，可以获取有关特定组件的信息。将鼠标悬停在组件列表或组件右窗格中的组件上时，选择组件卡中的“了解详细信息”链接。

数据准备组件

功能	说明	组件
数据输入和输出	将数据从云源移动到管道中。在运行管道时将结果或中间数据写入到 Azure 存储或 SQL 数据库，或者使用云存储空间在管道之间交换数据。	手动输入数据导出数据导入数据
数据转换	对数据进行的机器学习独有的操作，例如将数据规范化或装箱、维数缩减以及在各种文件格式间转换数据。	添加列添加行应用数学运算应用 SQL 转换清理缺失数据剪切值转换为 CSV 转换为数据集转换为指示器值编辑元数据将数据分组到箱中联接数据规范化数据分区和采样删除重复的行 SMOTE 选择列转换在数据集中选择列拆分数据
特征选择	选择用于生成分析模型的有用相关功能的子集。	基于筛选器的特征选择排列特征重要性
统计函数	提供与数据科学相关的各种统计方法。	汇总数据

功能	说明	组件
回归	预测值。	提升决策树回归决策林回归快速林分位回归线性回归神经网络回归泊松回归
群集	将数据分到一组。	K 均值聚类分析
分类	预测类。从二进制（双类）或多类算法中进行选择。	多类提升决策树多类决策林多类逻辑回归多类神经网络 “一对多”多类 “一对一个多类双类平均感知器双类提升决策树双类决策林双类逻辑回归双类神经网络双类支持向量机

功能	说明	组件
模型训练	通过算法运行数据。	训练群集模型训练模型训练 Pytorch 模型优化模型超参数
模型评分和评估	度量已训练模型的准确度。	应用转换将数据分配到群集交叉验证模型评估模型为图像模型评分评分模型
Python 语言	编写代码并将其嵌入到组件中，以便将 Python 与管道集成。	创建 Python 模型执行 Python 脚本
R 语言	编写代码并将其嵌入到组件中，以便将 R 与管道集成。	执行 R 脚本
文本分析	提供专用计算工具来处理结构化和非结构化文本。	将单词转换为矢量从文本中提取 N 元语法特征特征哈希预处理文本隐性 Dirichlet 分配对 Vowpal Wabbit 模型评分训练 Vowpal Wabbit 模型
计算机视觉	图像数据预处理和图像识别相关组件。	应用图像转换转换为图像目录初始化图像转换拆分图像目录 DenseNet ResNet
建议	构建推荐模型。	评估推荐器为 SVD 推荐器评分为 Wide and Deep 推荐器评分训练 SVD 推荐器训练 Wide and Deep 推荐器
异常检测	构建异常情况检测模型。	基于 PCA 的异常情况检测训练异常情况检测模型

了解 Azure 机器学习设计器中的实时推理所需的 Web 服务组件。

了解在 Azure 机器学习设计器中使用组件时可能会遇到的错误消息和异常代码。

设计器中的所有内置组件都将在 Microsoft 提供的固定环境中执行。

以前，此环境基于 Python 3.6，现在已升级到 Python 3.8。此升级是透明的，因为组件将自动在 Python 3.8 环境中运行，无需用户执行任何操作。环境更新可能会影响组件输出以及从实时推理部署实时终结点的操作，详见以下部分。

将 Python 版本从 3.6 升级到 3.8 后，也可以相应地升级内置组件的依赖项。因此，你可能会发现某些组件输出与以前的结果不同。

如果使用的是“执行 Python 脚本”组件，并且以前安装了绑定到 Python 3.6 的包，则可能遇到如下错误：

如果直接从以前的已完成的实时推理管道部署实时终结点，则可能会遇到错误。

建议：克隆推理管道并再次提交它，然后将它部署到实时终结点。