教程：Power BI 集成 - 拖放以创建预测模型（第 1 部分，共 2 部分）

项目
08/17/2023

在本教程的第 1 部分中，你将使用 Azure 机器学习设计器训练和部署预测机器学习模型。此设计器是一个低代码拖放式用户界面。在第 2 部分中，你将使用该模型来预测 Microsoft Power BI 中的结果。

在本教程中，你将了解：

创建 Azure 机器学习计算实例。
创建 Azure 机器学习推理群集。
创建数据集。
训练回归模型。
将模型部署到实时评分终结点。

有三种方法可用于创建和部署要在 Power BI 中使用的模型。本文介绍“选项 B：使用设计器训练和部署模型”。此选项是使用设计器接口的低代码创作体验。

但你可改用其他选项之一：

选项 A：使用 Jupyter Notebook 训练和部署模型。这种代码优先的创作体验使用 Azure 机器学习工作室中托管的 Jupyter Notebook。
选项 C：使用自动化机器学习训练和部署模型。这种不用代码的创作体验可完全自动执行数据准备和模型训练。

先决条件

Azure 订阅（已推出试用版）。
Azure 机器学习工作区。如果没有工作区，请参阅创建和管理 Azure 机器学习工作区。
机器学习工作流的入门知识。

创建计算以便训练和评分

在本部分中，创建一个计算实例。计算实例用于训练机器学习模型。还将创建一个推理群集，用于托管已部署的模型以进行实时评分。

登录到 Azure 机器学习工作室。在左侧菜单中，选择“计算”，然后选择“新建” ：

Screenshot showing how to create a compute instance.

在“创建计算实例”页上，选择 VM 大小。对于本教程，请选择“Standard_D11_v2”VM。然后，选择“下一步”。

在“设置”页上，为计算实例命名。然后选择“创建”。

提示

还可以使用计算实例来创建和运行笔记本。

计算实例“状态”现在为“正在创建” 。预配计算机大约需要 4 分钟。

等待期间，在“计算”页上选择“推理群集”选项卡。然后，选择“新建”：

Screenshot showing how to create an inference cluster.

在“创建推理群集”页上，选择区域和 VM 大小。对于本教程，请选择“Standard_D11_v2”VM。然后，选择“下一步”。

在“配置设置”页上：

提供有效的计算名称。
选择“开发测试”作为群集目的。此选项将创建单个节点来托管已部署的模型。
选择“创建” 。

推理群集“状态”现在为“正在创建” 。部署单个节点群集大约需要 4 分钟。

创建数据集

在本教程中，将使用糖尿病数据集。 Azure 开放数据集中提供了该数据集。

若要创建数据集，请在左侧菜单中选择“数据”。然后选择“创建”。你将看到以下选项：

Screenshot showing how to create a new dataset.

选择“从开放数据集”。在“从开放数据集创建数据集”页面：

使用搜索栏查找“糖尿病”。
选择“示例:糖尿病”。
选择“下一页”。
将数据集命名为“糖尿病”。
选择“创建” 。

若要浏览数据，请选择数据集，然后选择“浏览”：

Screenshot showing how to explore a dataset.

数据包含 10 个基线输入变量，例如年龄、性别、体重指数、平均血压和六项血清度量。它还有一个名为“Y”的目标变量。该目标变量是基线后一年糖尿病进展的量化度量值。

使用设计器创建机器学习模型

创建计算和数据集之后，可以使用设计器来创建机器学习模型。在 Azure 机器学习工作室中，选择“设计器”，然后选择“新建管道”：

Screenshot showing how to create a new pipeline.

将显示一个空白画布和“设置”菜单：

Screenshot showing how to select a compute target.

在“设置”菜单中，选择“选择计算目标” 。选择此前创建的计算实例，然后选择“保存”。将“草稿名称”更改为更容易记忆的名称，如 diabetes-model。最后，输入说明。

在资产列表中，展开“数据集”并找到“糖尿病”数据集。将此组件拖动到画布上：

Screenshot showing how to drag a component onto the canvas.

接下来，将以下组件拖动到画布上：

线性回归（位于“机器学习算法”中）
训练模型（位于“模型训练”中）

在画布上，请注意组件顶部和底部的圆圈。这些圆圈是端口。

Screenshot showing the ports on unconnected components.

现在将组件连接在一起。选择“糖尿病”数据集底部的端口。将其拖动到“训练模型”组件右上方的端口。选择“线性回归”组件底部的端口。将其拖动到“训练模型”组件左上方的端口。

选择要用作要预测的标签（目标）变量的数据集列。选择“训练模型”组件，然后选择“编辑列” 。

在对话框中，选择“输入列名称”>“Y” ：

Screenshot showing how to select a label column.

选择“保存”。机器学习工作流应如下所示：

Screenshot showing connected components.

选择“提交”。在“试验”下，选择“新建” 。为试验命名，然后选择“提交”。

注意

试验首次运行大约需要 5 分钟。后续运行的速度要快得多，因为设计器缓存已运行的组件以减少延迟。

试验完成后，会看到此视图：

Screenshot showing a completed run.

若要检查试验日志，请选择“训练模型”，然后选择“输出 + 日志” 。

部署模型

若要部署模型，请在画布顶部，选择“创建推理管道”>“实时推理管道” ：

Screenshot showing where to select a real-time inference pipeline.

管道压缩为执行模型评分所需的组件。为数据评分时，你不知道目标变量值。因此，可以从数据集中删除“Y”。

若要删除“Y”，请在画布上添加“选择数据集中的列”组件。连接组件，将“糖尿病”数据集作为输入。结果是输出到“计分模型”组件：

Screenshot showing how to remove a column.

在画布上选择“选择数据集中的列”组件，然后选择“编辑列” 。

在“选择列”对话框中，选择“按名称” 。然后，确保选择了所有输入变量，但未选中目标：

Screenshot showing how to remove column settings.

选择“保存”。

最后，选择“评分模型”组件，并确保清除“将评分列追加到输出”复选框。为了减少延迟，无需输入便会发送回预测。

Screenshot showing settings for the Score Model component.

在画布顶部选择“提交”。

成功运行推理管道后，可以将模型部署到推理群集。选择“部署”。

在“设置实时终结点”对话框中，选择“部署新的实时终结点” 。将终结点命名为 my-diabetes-model。选择此前创建的推理，然后选择“部署”：

Screenshot showing real-time endpoint settings.

后续步骤

在本教程中，你了解了如何训练和部署设计器模型。在下一部分中，你将了解如何在 Power BI 中使用此模型（对其进行评分）。

教程：在 Power BI 中使用模型