在本教程的第 1 部分中,你将使用 Azure 机器学习设计器训练和部署预测机器学习模型。 此设计器是一个低代码拖放式用户界面。 在第 2 部分中,你将使用该模型来预测 Microsoft Power BI 中的结果。
在本教程中,你将了解:
- 创建 Azure 机器学习计算实例。
- 创建 Azure 机器学习推理群集。
- 创建数据集。
- 训练回归模型。
- 将模型部署到实时评分终结点。
有三种方法可用于创建和部署要在 Power BI 中使用的模型。 本文介绍“选项 B:使用设计器训练和部署模型”。此选项是使用设计器接口的低代码创作体验。
但你可改用其他选项之一:
- 选项 A:使用 Jupyter Notebook 训练和部署模型。 这种代码优先的创作体验使用 Azure 机器学习工作室中托管的 Jupyter Notebook。
- 选项 C:使用自动化机器学习训练和部署模型。 这种不用代码的创作体验可完全自动执行数据准备和模型训练。
先决条件
- Azure 订阅(已推出试用版)。
- Azure 机器学习工作区。 如果没有工作区,请参阅创建和管理 Azure 机器学习工作区。
- 机器学习工作流的入门知识。
创建计算以便训练和评分
在本部分中,创建一个计算实例。 计算实例用于训练机器学习模型。 还将创建一个推理群集,用于托管已部署的模型以进行实时评分。
登录到 Azure 机器学习工作室。 在左侧菜单中,选择“计算”,然后选择“新建” :
在“创建计算实例”页上,选择 VM 大小。 对于本教程,请选择“Standard_D11_v2”VM。 然后,选择“下一步”。
在“设置”页上,为计算实例命名。 然后选择“创建”。
提示
还可以使用计算实例来创建和运行笔记本。
计算实例“状态”现在为“正在创建” 。 预配计算机大约需要 4 分钟。
等待期间,在“计算”页上选择“推理群集”选项卡 。然后,选择“新建”:
在“创建推理群集”页上,选择区域和 VM 大小。 对于本教程,请选择“Standard_D11_v2”VM。 然后,选择“下一步”。
在“配置设置”页上:
- 提供有效的计算名称。
- 选择“开发测试”作为群集目的。 此选项将创建单个节点来托管已部署的模型。
- 选择“创建” 。
推理群集“状态”现在为“正在创建” 。 部署单个节点群集大约需要 4 分钟。
创建数据集
在本教程中,将使用糖尿病数据集。 Azure 开放数据集中提供了该数据集。
若要创建数据集,请在左侧菜单中选择“数据”。 然后选择“创建”。 你将看到以下选项:
选择“从开放数据集”。 在“从开放数据集创建数据集”页面:
- 使用搜索栏查找“糖尿病”。
- 选择“示例:糖尿病”。
- 选择“下一页”。
- 将数据集命名为“糖尿病”。
- 选择“创建” 。
若要浏览数据,请选择数据集,然后选择“浏览”:
数据包含 10 个基线输入变量,例如年龄、性别、体重指数、平均血压和六项血清度量。 它还有一个名为“Y”的目标变量。该目标变量是基线后一年糖尿病进展的量化度量值。
使用设计器创建机器学习模型
创建计算和数据集之后,可以使用设计器来创建机器学习模型。 在 Azure 机器学习工作室中,选择“设计器”,然后选择“新建管道”:
将显示一个空白画布和“设置”菜单:
在“设置”菜单中,选择“选择计算目标” 。 选择此前创建的计算实例,然后选择“保存”。 将“草稿名称”更改为更容易记忆的名称,如 diabetes-model。 最后,输入说明。
在资产列表中,展开“数据集”并找到“糖尿病”数据集 。 将此组件拖动到画布上:
接下来,将以下组件拖动到画布上:
- 线性回归(位于“机器学习算法”中 )
- 训练模型(位于“模型训练”中 )
在画布上,请注意组件顶部和底部的圆圈。 这些圆圈是端口。
现在将组件连接在一起。 选择“糖尿病”数据集底部的端口。 将其拖动到“训练模型”组件右上方的端口。 选择“线性回归”组件底部的端口。 将其拖动到“训练模型”组件左上方的端口。
选择要用作要预测的标签(目标)变量的数据集列。 选择“训练模型”组件,然后选择“编辑列” 。
在对话框中,选择“输入列名称”>“Y” :
选择“保存”。 机器学习工作流应如下所示:
选择“提交”。 在“试验”下,选择“新建” 。 为试验命名,然后选择“提交”。
注意
试验首次运行大约需要 5 分钟。 后续运行的速度要快得多,因为设计器缓存已运行的组件以减少延迟。
试验完成后,会看到此视图:
若要检查试验日志,请选择“训练模型”,然后选择“输出 + 日志” 。
部署模型
若要部署模型,请在画布顶部,选择“创建推理管道”>“实时推理管道” :
管道压缩为执行模型评分所需的组件。 为数据评分时,你不知道目标变量值。 因此,可以从数据集中删除“Y”。
若要删除“Y”,请在画布上添加“选择数据集中的列”组件 。 连接组件,将“糖尿病”数据集作为输入。 结果是输出到“计分模型”组件:
在画布上选择“选择数据集中的列”组件,然后选择“编辑列” 。
在“选择列”对话框中,选择“按名称” 。 然后,确保选择了所有输入变量,但未选中目标:
选择“保存”。
最后,选择“评分模型”组件,并确保清除“将评分列追加到输出”复选框 。 为了减少延迟,无需输入便会发送回预测。
在画布顶部选择“提交”。
成功运行推理管道后,可以将模型部署到推理群集。 选择“部署”。
在“设置实时终结点”对话框中,选择“部署新的实时终结点” 。 将终结点命名为 my-diabetes-model。 选择此前创建的推理,然后选择“部署”:
后续步骤
在本教程中,你了解了如何训练和部署设计器模型。 在下一部分中,你将了解如何在 Power BI 中使用此模型(对其进行评分)。