教程:Power BI 集成 - 使用自动化机器学习创建预测模型(第 1 部分,共 2 部分)

在本教程的第 1 部分中,你将训练和部署预测机器学习模型。 你要在 Azure 机器学习工作室中使用自动化机器学习 (ML)。 在第 2 部分中,你将使用性能最佳的模型来预测 Microsoft Power BI 中的结果。

在本教程中,你将了解:

  • 创建 Azure 机器学习计算群集。
  • 创建数据集。
  • 创建自动化机器学习运行。
  • 将最佳模型部署到实时评分终结点。

有三种方法可用于创建和部署要在 Power BI 中使用的模型。 本文介绍“选项 C:在工作室中使用自动化机器学习训练和部署模型”。 此选项是一种不用代码的创作体验。 它完全自动执行数据准备和模型训练。

但你可改用其他选项之一:

先决条件

创建计算群集

自动化机器学习会训练大量机器学习模型,来找出“最佳”算法和参数。 Azure 机器学习会在计算群集上并行运行模型训练。

若要开始,请在 Azure 机器学习工作室的左侧菜单中选择“计算”。 打开“计算群集”选项卡。然后,选择“新建”:

显示如何创建计算群集的屏幕截图。

在“创建计算群集”页面上:

  1. 选择 VM 大小。 在本教程中,可选择“Standard_D11_v2”计算机。
  2. 选择“下一页”。
  3. 提供有效的计算名称。
  4. 将“最小节点数”保留为 0
  5. 将“最大节点数”更改为 4
  6. 选择“创建” 。

群集的状态更改为“正在创建”。

备注

新群集有 0 个节点,因此不会产生计算成本。 只有在自动化机器学习作业运行时才会产生成本。 空闲时间达到 120 秒后,群集自动缩减回到 0。

创建数据集

在本教程中,将使用糖尿病数据集Azure 开放数据集中提供了该数据集。

若要创建数据集,请在左侧菜单中选择“数据集”。 然后,选择“创建数据集”。 你将看到以下选项:

显示如何新建数据集的屏幕截图。

选择“从开放数据集”。 然后,在“从开放数据集创建数据集”页面:

  1. 使用搜索栏查找“糖尿病”。
  2. 选择“示例:糖尿病”。
  3. 选择“下一页”。
  4. 将数据集命名为“糖尿病”。
  5. 选择“创建” 。

若要浏览数据,请选择数据集,然后选择“浏览”:

显示如何浏览数据集的屏幕截图。

数据包含 10 个基线输入变量,例如年龄、性别、体重指数、平均血压和六项血清度量。 它还有一个名为“Y”的目标变量。该目标变量是基线后一年糖尿病进展的量化度量值。

创建自动化机器学习运行

Azure 机器学习工作室的左侧菜单中,选择“自动化 ML”。 然后,选择“新建自动化 ML 运行”:

显示如何新建自动化机器学习运行的屏幕截图。

接下来,选择之前创建的“糖尿病”数据集。 然后,选择“下一步”:

显示如何选择数据集的屏幕截图。

在“配置运行”页面上:

  1. 在“试验名称”下,选择“新建” 。
  2. 为试验命名。
  3. 在“目标列”字段中,选择“Y” 。
  4. 在“选择计算群集”字段中,选择之前创建的计算群集。

已完成的窗体应如下所示:

显示如何配置自动化机器学习的屏幕截图。

最后,选择机器学习任务。 在本例中,任务是“回归”:

显示如何配置任务的屏幕截图。

选择“完成”。

重要

自动化机器学习大约需要 30 分钟才能完成 100 个模型的训练。

部署最佳模型

自动化机器学习完成后,可选择“模型”选项卡来查看已尝试的所有机器学习模型。模型按性能排序,性能最佳的模型显示在最前面。 选择最佳模型后,将启用“部署”按钮:

显示模型列表的屏幕截图。

选择“部署”来打开“部署模型”窗口 :

  1. 将模型服务命名为 diabetes-model。
  2. 选择“Azure 容器服务”。
  3. 选择“部署”。

你应会看到一条消息,它指示已成功部署模型。

后续步骤

在本教程中,你了解了如何使用自动化机器学习训练和部署机器学习模型。 在下一教程中,你将了解如何在 Power BI 中使用此模型(对其进行评分)。