在 Azure 机器学习设计器中运行 Python 代码

本文介绍如何使用执行 Python 脚本组件将自定义逻辑添加到 Azure 机器学习设计器中。 在本操作指南中,你将使用 Pandas 库来执行简单的特征工程。

可以使用内置的代码编辑器来快速添加简单的 Python 逻辑。 应使用 zip 文件方法来添加更复杂的代码或上传更多的 Python 库。

默认执行环境使用 Anacondas 发行版 Python。 有关预安装包的完整列表,请参阅“执行 Python 脚本”组件参考页。

Execute Python input map

重要

如果看不到本文档中提到的图形元素(例如工作室或设计器中的按钮),则你可能没有适当级别的工作区权限。 请与 Azure 订阅管理员联系,验证是否已向你授予正确级别的访问权限。 有关详细信息,请参阅管理用户和角色

执行在设计器中编写的 Python

添加“执行 Python 脚本”组件

  1. 在设计器面板中,查找“执行 Python 脚本”组件。 可以在“Python 语言”部分中找到它。

  2. 将此组件拖放到管道画布上。

连接输入数据集

本文使用“汽车价格数据(原始)”示例数据集。

  1. 将数据集拖放到管道画布上。

  2. 将数据集的输出端口连接到“执行 Python 脚本”组件的左上角输入端口。 设计器将输入作为参数公开给入口点脚本。

    右侧的输入端口是为压缩的 Python 库预留的。

    Connect datasets

  3. 请仔细记下所使用的特定输入端口。 设计器将左侧的输入端口分配给变量 dataset1,并将中间输入端口分配给 dataset2

输入组件是可选的,因为你可以直接在“执行 Python 脚本”组件中生成或导入数据。

编写 Python 代码

设计器提供了一个初始入口点脚本,供你编辑和输入自己的 Python 代码。

在此示例中,你使用 Pandas 来合并汽车数据集中的两列(“价格”和“马力”),以新建“美元/马力”列。 此列表示每马力的价格,这可能会成为一个有用的信息点,用于确定某辆汽车是否物有所值。

  1. 选择“执行 Python 脚本”组件。

  2. 在随即显示的窗格中,选择画布右侧的“Python 脚本”文本框。

  3. 将以下代码复制并粘贴到文本框中:

    import pandas as pd
    
    def azureml_main(dataframe1 = None, dataframe2 = None):
        dataframe1['Dollar/HP'] = dataframe1.price / dataframe1.horsepower
        return dataframe1
    

    管道应如下图所示:

    Execute Python pipeline

    入口点脚本必须包含函数 azureml_main。 该函数有两个函数参数,映射到“执行 Python 脚本”组件的两个输入端口。

    返回值必须是 Pandas 数据帧。 最多可以返回两个数据帧作为组件输出。

  4. 提交管道。

现在你有了一个数据集,它有一个新的“美元/马力”特征。 这项新特征可以帮助训练汽车推荐器。 这个示例展示了特征提取和降维。

后续步骤

了解如何在 Azure 机器学习设计器中导入你自己的数据