了解如何在 Azure 机器学习工作室中使用自动化机器学习创建 时序预测模型 ,而无需编写单行代码。 此模型将预测自行车共享服务的租赁需求。
本教程中未编写任何代码。 而是使用工作室界面执行训练。 你将了解如何执行以下任务:
- 创建并加载数据集。
- 配置并运行自动化 ML 试验。
- 指定预测设置。
- 浏览试验结果。
- 部署最佳模型。
另请尝试对其他模型类型进行自动化机器学习:
- 如需分类模型的无代码示例,请参阅教程:使用 Azure 机器学习中的自动化 ML 创建分类模型。
- 有关对象检测模型的代码优先示例,请参阅 教程:使用 AutoML 和 Python 训练对象检测模型。
先决条件
Azure 机器学习工作区。 请参阅创建工作区资源。
下载 bike-no.csv 数据文件。
登录到工作室
在本教程中,你将在 Azure 机器学习工作室中创建自动化 ML 试验运行。 Azure 机器学习工作室是一个合并的 Web 界面,其中包括机器学习工具,用于针对所有技能级别的数据科学从业者执行数据科学方案。
登录到 Azure 机器学习工作室。
选择创建的订阅和工作区。
创建试验
在左侧菜单中的 “创作 ”部分,选择“ 自动化 ML:
选择 “新建自动化 ML 作业 ”以启动 “提交自动化 ML 作业 ”过程。
默认情况下,该过程会在“训练方法”选项卡上选择“训练”自动选项,并继续执行配置设置。
在 “基本信息设置 ”选项卡上,输入所需设置的值,包括 作业 名称和 试验 名称。 对于本教程,请使用
automl-bikeshare
试验名称。 还可以根据需要为可选设置提供值。选择 “下一步 ”以继续。
配置任务类型和数据集
在 “任务类型和数据 ”选项卡上,指定用于训练数据的试验和机器学习模型的数据资产。 在本教程中,将使用 bike-no.csv 文件。 如果尚未下载该文件,请立即执行此作。
在 “任务类型和数据 ”窗体上,选择 “时序预测 ”作为任务类型。
选择“ 创建 ”,从下载的文件创建新的数据资产。
在 “数据类型 ”页上,为数据集命名并提供可选说明。 将数据集类型设置为 表格。 选择 “下一步 ”以继续。
在 “数据源 ”页上,选择“ 从本地文件”。
可在左侧菜单中显示其他选项,以便配置数据源。
选择 “下一步 ”以继续转到 “目标存储类型 ”页,可在其中指定要上传数据资产的 Azure 存储位置。
- 对于 数据存储类型,请选择 “Azure Blob 存储”。
- 在数据存储列表中,选择在创建工作区期间自动设置的默认数据存储:“workspaceblobstore”。
- 选择“下一页”。
在“文件和文件夹 选择 ”页上,使用 “上传文件”或“文件夹 ”下拉菜单,然后选择“ 上传文件 ”选项。
在本地计算机上选择“bike-no.csv”文件。 这是作为必备组件下载的文件。
上传文件后,选择“ 下一步”。
在 “设置” 页上检查上传的数据的准确性。 页面上的字段根据数据的文件类型预填充:
字段 说明 教程的值 文件格式 定义文件中存储的数据的布局和类型。 带分隔符 分隔符 一个或多个字符,用于指定纯文本或其他数据流中不同的独立区域之间的边界。 逗号 编码 指定字符架构表中用于读取数据集的位。 UTF-8 列标题 指示如何处理数据集的标头(如果有)。 仅第一个文件包含标头 跳过行 指示要跳过数据集中的多少行(如果有)。 无 选择 “下一步 ”以继续转到 “架构 ”页。 此页也根据 “设置” 选择预填充。
在本教程中,选择忽略 临时 列和 已注册 列。 这些列是 cnt 列的细分,因此我们不包括它们。
对于本教程,请保留 “属性 ”和 “类型”的默认值。
选择 “下一步 ”以继续查看 + 创建 页面。
查看数据资产的设置。 如果一切正常,请选择“ 创建 ”以创建数据资产。
配置任务和预测设置
数据资产准备就绪后,机器学习工作室将返回到“提交自动化 ML 作业”过程的“任务类型和数据”选项卡。 新数据资产将显示在页面上。
按照以下步骤完成作业配置:
展开 “选择任务类型 ”下拉菜单,然后选择 “时序预测”。
指定训练模型后,在列表中选择数据集。 选择 “下一步 ”以继续转到 “任务设置 ”选项卡。
在 “目标列 ”下拉列表中,选择要用于模型预测的 cnt 列。
选择“日期”作为时间列,将“时序标识符”留空。
“频率”是指收集历史数据的频率。 保留选择“自动检测”。
“预测范围”是要预测的未来时间长短。 取消选择“自动检测”,并在字段中键入 14。
保留 “启用深度学习 ”已取消选中状态。
选择“查看其他配置设置”并按如下所示填充字段。 这些设置可帮助你更好地控制训练作业并指定预测的设置。 否则,将会根据试验选择和数据应用默认设置。
其他配置 说明 教程的值 主要指标 对机器学习算法进行度量时依据的评估指标。 规范化均方根误差 解释最佳模型 自动显示有关自动化 ML 创建的最佳模型的可解释性。 启用 阻止的模型 要从训练作业中排除的算法 极端随机树 其他预测设置 这些设置有助于提高模型的准确度。
预测目标滞后时间: 要构造目标变量的滞后时间
目标滚动窗口:指定生成特征(如 最大值、 最小值和 和和)的滚动窗口的大小。
预测目标滞后:无
目标滚动窗口大小:无Limits 如果满足条件,则停止训练作业。 最大并发试用版数:6
指标分数阈值:无
试验超时(分钟):180在 [可选] 验证和测试 表单上:
选择 k 折交叉验证 作为 验证类型。
选择 5 作为 交叉验证数。
选择“保存”。
配置计算目标
加载和配置数据后,设置远程计算目标。
按如下所示填充 计算 窗体:
使用 “选择计算类型 ”下拉列表选择 计算群集 作为计算类型。
选择“+ 新建”以配置计算目标。 自动 ML 仅支持 Azure 机器学习计算。
填充 “选择虚拟机 ”窗体以设置计算:
字段 说明 教程的值 虚拟机层 选择试验应具有的优先级 专属 虚拟机类型 为计算选择虚拟机类型 CPU(中央处理单元) 虚拟机大小 指定计算资源的虚拟机大小。 根据数据和试验类型提供了建议的大小列表。 Standard_DS12_V2 选择 “下一步 ”以填充 “配置设置 ”窗体:
字段 说明 教程的值 计算名称 用于标识计算上下文的唯一名称。 bike-compute 最小/最大节点数 要分析数据,必须指定一个或多个节点。 最小节点数:1
最大节点数:6缩减前的空闲秒数 群集自动缩减到最小节点数之前的空闲时间。 120(默认值) 高级设置 用于为试验配置虚拟网络并对其进行授权的设置。 无 选择 “创建 ”以创建计算目标。
这需要几分钟才能完成。
创建后,从下拉列表中选择新的计算目标。
选择 “下一步 ”以继续转到 “审阅 ”页。 查看作业的配置设置摘要。
运行试验
若要运行试验,请选择“ 提交训练作业”。 此时会打开“作业详细信息”屏幕,其顶部的作业编号旁边显示了“作业状态”。 此状态随着试验的进行而更新。 通知还会显示在工作室右上角,告知你实验的状态。
重要
准备试验作业时,准备需要 10-15 分钟。
运行以后,每个迭代还需要 2-3 分钟。
在生产环境中,此过程需要一段时间,因此不妨干点其他的事。 在等待过程中,我们建议在“模型”选项卡上开始浏览已完成测试的算法。
浏览模型
导航到“ 模型 + 子作业 ”选项卡以查看已测试的算法(模型)。 默认情况下,这些模型在完成后按指标分数排序。 在本教程中,根据所选 规范化根均方误差 指标评分最高的模型显示在列表顶部。
在等待所有试验模型完成的时候,可以选择已完成模型的“算法名称”,以便浏览其性能详细信息。
以下示例进行导航,从作业创建的模型列表中选择模型。 然后,选择“ 概述 ”和“ 指标 ”选项卡以查看所选模型的属性、指标和性能图表。
部署模型
Azure 机器学习工作室中的自动化机器学习可以通过几个步骤将最佳模型部署为 Web 服务。 部署是模型的集成,因此它可以对新数据进行预测并识别潜在的机会领域。
在此试验中部署到 Web 服务后,单车共享公司即会获得一个迭代且可缩放的 Web 解决方案,可以预测共享单车的租赁需求。
作业完成后,选择屏幕顶部的 作业 1 ,导航回父作业页面。
在 “最佳模型摘要 ”部分中,根据 规范化根均方误差 指标选择此试验上下文中的最佳模型。
我们部署此模型,但建议部署大约需要 20 分钟才能完成。 部署过程需要几个步骤,包括注册模型、生成资源和为 Web 服务配置资源。
选择该最佳模型,以打开特定于模型的页。
选择屏幕左上角区域的 “部署 ”按钮。
按如下所示填充“部署模型”窗格:
字段 值 部署名称 bikeshare-deploy 部署说明 单车共享需求部署 计算类型 选择“Azure 计算实例(ACI)” 启用身份验证 Disable 使用自定义部署资产 禁用。 禁用此选项可以自动生成默认驱动程序文件(评分脚本)和环境文件。 本示例使用“高级”菜单中提供的默认值。
选择“部署”。
“作业”屏幕的顶部会以绿色字体显示一条成功消息,指出部署已成功启动。 可以在“部署状态”下的“模型摘要”窗格中找到部署进度。
部署成功后,即会获得一个正常运行的、可以生成预测结果的 Web 服务。
继续执行 后续步骤 ,详细了解如何使用新的 Web 服务并使用 Power BI 的内置 Azure 机器学习支持测试预测。
清理资源
部署文件比数据文件和试验文件更大,因此它们的存储成本也更大。 仅当你想要最大程度地降低帐户成本,或者想要保留工作区和试验文件时,才删除部署文件。 否则,如果不打算使用任何文件,请删除整个资源组。
删除部署实例
如果想要保留资源组和工作区,以便进行其他教程和探索,请仅从 Azure 机器学习工作室中删除部署实例。
转到 Azure 机器学习工作室。 导航到你的工作区,然后在“资产”窗格的左下角选择“终结点”。
选择要删除的部署,然后选择“删除”。
选择“继续”。
删除资源组
重要
已创建的资源可用作其他 Azure 机器学习教程和操作方法文章的先决条件。
如果你不打算使用已创建的任何资源,请删除它们,以免产生任何费用:
在 Azure 门户的搜索框中输入“资源组”,然后从结果中选择它。
从列表中选择你创建的资源组。
在“概述”页面上,选择“删除资源组”。
输入资源组名称。 然后选择“删除”。
后续步骤
在本教程中,你已使用 Azure 机器学习工作室中的自动化 ML 创建并部署了一个可预测单车共享租赁需求的时序预测模型。
- 详细了解自动化机器学习。
- 有关分类指标和图表的详细信息,请参阅理解自动化机器学习结果一文。
注意
此单车共享数据集已根据本教程修改。 此数据集是作为 Kaggle 竞赛的一部分提供的,最初通过 Capital Bikeshare 提供。 也可以在 UCI 机器学习数据库中找到它。
源:Fanaee-T、Hadi、Gama 和 Joao:合并系综检测器的事件标签和背景知识;人工智能的进步 (2013):pp. 1-15,Springer Berlin Heidelberg。