Azure 机器学习设计器的算法和组件参考

适用于:Python SDK azure-ai-ml v2(当前版本)

注意

设计器支持两种类型的组件:经典预生成组件和自定义组件。 这两种类型的组件不兼容。

经典预生成组件主要为数据处理和传统的机器学习任务(如回归和分类)提供预生成组件。 此类型的组件将继续受支持,但不会增加任何新组件。

自定义组件允许你以组件的形式提供自己的代码。 它支持跨工作区共享,以及跨 Studio、CLI 和 SDK 接口进行无缝创作。

本文适用于经典预生成组件。

此参考内容提供有关 Azure 机器学习设计器中可用的每个经典预生成组件的技术背景。

每个组件均表示一组可以独立运行并可根据所需输入来执行机器学习任务的代码。 组件可能包含特定的算法,或者可能执行在机器学习中非常重要的任务,如替换缺少的值或进行统计分析。

有关选择算法的帮助,请参阅

提示

在设计器的任何管道中,可以获取有关特定组件的信息。 将鼠标悬停在组件列表或组件右窗格中的组件上时,选择组件卡中的“了解详细信息”链接。

数据准备组件

功能 说明 组件
数据输入和输出 将数据从云源移动到管道中。 在运行管道时将结果或中间数据写入到 Azure 存储或 SQL 数据库,或者使用云存储空间在管道之间交换数据。 手动输入数据
导出数据
导入数据
数据转换 对数据进行的机器学习独有的操作,例如将数据规范化或装箱、维数缩减以及在各种文件格式间转换数据。 添加列
添加行
应用数学运算
应用 SQL 转换
清理缺失数据
剪切值
转换为 CSV
转换为数据集
转换为指示器值
编辑元数据
将数据分组到箱中
联接数据
规范化数据
分区和采样
删除重复的行
SMOTE
选择列转换
在数据集中选择列
拆分数据
特征选择 选择用于生成分析模型的有用相关功能的子集。 基于筛选器的特征选择
排列特征重要性
统计函数 提供与数据科学相关的各种统计方法。 汇总数据

机器学习算法

功能 说明 组件
回归 预测值。 提升决策树回归
决策林回归
快速林分位回归
线性回归
神经网络回归
泊松回归
群集 将数据分到一组。 K 均值聚类分析
分类 预测类。 从二进制(双类)或多类算法中进行选择。 多类提升决策树
多类决策林
多类逻辑回归
多类神经网络
“一对多”多类
“一对一个多类
双类平均感知器
双类提升决策树
双类决策林
双类逻辑回归
双类神经网络
双类支持向量机

用于构建和评估模型的组件

功能 说明 组件
模型训练 通过算法运行数据。 训练群集模型
训练模型
训练 Pytorch 模型
优化模型超参数
模型评分和评估 度量已训练模型的准确度。 应用转换
将数据分配到群集
交叉验证模型
评估模型
为图像模型评分
评分模型
Python 语言 编写代码并将其嵌入到组件中,以便将 Python 与管道集成。 创建 Python 模型
执行 Python 脚本
R 语言 编写代码并将其嵌入到组件中,以便将 R 与管道集成。 执行 R 脚本
文本分析 提供专用计算工具来处理结构化和非结构化文本。 将单词转换为矢量
从文本中提取 N 元语法特征
特征哈希
预处理文本
隐性 Dirichlet 分配
对 Vowpal Wabbit 模型评分
训练 Vowpal Wabbit 模型
计算机视觉 图像数据预处理和图像识别相关组件。 应用图像转换
转换为图像目录
初始化图像转换
拆分图像目录
DenseNet
ResNet
建议 构建推荐模型。 评估推荐器
为 SVD 推荐器评分
为 Wide and Deep 推荐器评分
训练 SVD 推荐器
训练 Wide and Deep 推荐器
异常检测 构建异常情况检测模型。 基于 PCA 的异常情况检测
训练异常情况检测模型

Web 服务

了解 Azure 机器学习设计器中的实时推理所需的 Web 服务组件

Error messages

了解在 Azure 机器学习设计器中使用组件时可能会遇到的错误消息和异常代码

组件环境

设计器中的所有内置组件都将在 Microsoft 提供的固定环境中执行。

以前,此环境基于 Python 3.6,现在已升级到 Python 3.8。 此升级是透明的,因为组件将自动在 Python 3.8 环境中运行,无需用户执行任何操作。 环境更新可能会影响组件输出以及从实时推理部署实时终结点的操作,详见以下部分。

组件输出与以前的结果不同

将 Python 版本从 3.6 升级到 3.8 后,也可以相应地升级内置组件的依赖项。 因此,你可能会发现某些组件输出与以前的结果不同。

如果使用的是“执行 Python 脚本”组件,并且以前安装了绑定到 Python 3.6 的包,则可能遇到如下错误:

  • “找不到满足要求的版本。”
  • “找不到匹配的发行版。”这种情况下,你需要指定适应 Python 3.8 的包版本,然后再次运行管道。

从实时推理管道部署实时终结点的问题

如果直接从以前的已完成的实时推理管道部署实时终结点,则可能会遇到错误。

建议:克隆推理管道并再次提交它,然后将它部署到实时终结点。

后续步骤