将GitHub Actions用于Azure Machine Learning

适用于：Azure CLI ml 扩展 v2 （当前版本）Python SDK azure-ai-ml v2 （当前版本）

开始使用 GitHub Actions 在Azure Machine Learning上训练模型。

本文介绍如何创建生成机器学习模型并将其部署到 Azure Machine Learning 的GitHub Actions工作流。你将基于纽约出租车数据集训练 scikit-learn 线性回归模型。

GitHub Actions在存储库的 /.github/workflows/ 路径中使用工作流 YAML （.yml）文件。此定义包含组成工作流的各种步骤和参数。

先决条件

Azure Machine Learning工作区。有关创建工作区的步骤，请参阅 “创建工作区”。
适用于 Python v2 的 Azure Machine Learning SDK。若要安装 SDK，请使用以下命令：
```
pip install azure-ai-ml azure-identity
```
要将 SDK 的现有安装更新到最新版本，请使用以下命令：
```
pip install --upgrade azure-ai-ml azure-identity
```
有关详细信息，请参阅 Azure Machine Learning 包的 Python 客户端库。

GitHub帐户。如果你没有帐户，可免费注册一个。

步骤 1：获取代码

在GitHub分叉以下存储库：

https://github.com/azure/azureml-examples

在本地克隆你的派生的代码库。

git clone https://github.com/YOUR-USERNAME/azureml-examples

步骤 2：使用Azure进行身份验证

首先，定义如何使用Azure进行身份验证。建议更安全的选项是将 OpenID Connect 与Microsoft Entra应用程序或用户分配的托管标识配合使用来登录。如有必要，还可以使用服务主体帐户和密钥登录。此方法不太安全，不建议这样做。

使用 Azure CLI 中的 az ad sp create-for-rbac 命令创建 service principal。

az ad sp create-for-rbac --name "myML" --role contributor \
                            --scopes /subscriptions/<subscription-id>/resourceGroups/<group-name> \
                            --sdk-auth

在上面的示例中，请将占位符替换为你的订阅 ID、资源组名称和应用名称。输出是一个 JSON 对象，包含的角色分配凭据可提供对应用服务应用的访问权限，如下所示。复制此 JSON 对象供以后使用。

  {
    "clientId": "<GUID>",
    "clientSecret": "<GUID>",
    "subscriptionId": "<GUID>",
    "tenantId": "<GUID>",
    (...)
  }

OpenID Connect 是一种使用短期令牌的身份验证方法。设置 OpenID Connect 与 GitHub Actions 是一个更为复杂的过程，但能够提供更强的安全保障。

如果没有现有应用程序，请注册可以访问资源的新Active Directory应用程序和服务主体。创建Active Directory应用程序。
```
az ad app create --display-name myApp
```
此命令将输出 JSON，其中 appId 为你的 client-id。保存要用作 AZURE_CLIENT_ID GitHub 密钥的值。

在使用 Graph API 创建联合凭据并将其引用为 objectId 时，你将使用 APPLICATION-OBJECT-ID 值。
创建服务主体。将 $appID 替换为 JSON 输出中的 appId。

此命令使用不同的 objectId 生成 JSON 输出，将在下一步中使用。新的 objectId 是 assignee-object-id。

稍后将复制的appOwnerTenantId用作AZURE_TENANT_ID的GitHub密钥。
```
 az ad sp create --id $appId
```
按订阅和对象创建新的角色分配。默认情况下，角色分配将绑定到默认订阅。将 $subscriptionId 替换为你的订阅 ID，将 $resourceGroupName 替换为你的资源组名称，将 $assigneeObjectId 替换为生成的 assignee-object-id。了解如何使用 Azure CLI0 管理Azure订阅。
```
az role assignment create --role contributor --scope /subscriptions/$subscriptionId/resourceGroups/$resourceGroupName --subscription $subscriptionId --assignee-object-id  $assigneeObjectId --assignee-principal-type ServicePrincipal
```
运行以下命令，为 Active Directory 应用程序创建新的联合标识凭据。
- 将 APPLICATION-OBJECT-ID 替换为Active Directory应用程序的 objectId（在创建应用时生成）。
- 为 CREDENTIAL-NAME 设置一个值供以后引用。
- 设置 subject。此值由GitHub根据工作流定义：
  - GitHub Actions环境中的任务：repo:< Organization/Repository >:environment:< Name >
  - 对于未绑定到环境的作业，请根据用于触发工作流的参考路径，包含分支或标记的参考路径：repo:< Organization/Repository >:ref:< ref path>。例如 repo:n-username/ node_express:ref:refs/heads/my-branch 或 repo:n-username/ node_express:ref:refs/tags/my-tag。
  - 对于由拉取请求事件触发的工作流：repo:< Organization/Repository >:pull_request。
```
az rest --method POST --uri 'https://microsoftgraph.chinacloudapi.cn/beta/applications/<APPLICATION-OBJECT-ID>/federatedIdentityCredentials' --body '{"name":"<CREDENTIAL-NAME>","issuer":"https://token.actions.githubusercontent.com","subject":"repo:organization/repository:ref:refs/heads/main","description":"Testing","audiences":["api://AzureADTokenExchange"]}' 
```

若要了解如何在 Azure 门户中创建 Active Directory 应用程序、服务主体和联合凭据，请参阅 Connect GitHub 和 Azure。

创建机密

服务主体
OpenID Connect

在 GitHub 中，浏览存储库，选择 Settings > secrets > Actions。选择“新建存储库机密”。
将Azure CLI命令的整个 JSON 输出粘贴到机密的值字段中。为机密指定名称 AZ_CREDS。

需要向登录操作提供应用程序的“客户端 ID”、“租户 ID”和“订阅 ID”。这些值可以直接在工作流中提供，也可以存储在GitHub机密中，并在工作流中引用。将值保存为GitHub机密是更安全的选项。

在 GitHub 中，浏览存储库，选择 Settings > secrets > Actions。选择“新建存储库机密”。
为 AZURE_CLIENT_ID、AZURE_TENANT_ID 和 AZURE_SUBSCRIPTION_ID 创建机密。将 Active Directory 应用程序中的这些值用于 GitHub 密钥：

GitHub密钥 Active Directory 应用程序

AZURE_CLIENT_ID 应用程序（客户端）ID

AZURE_TENANT_ID (Azure租户ID) 目录（租户）ID

AZURE_SUBSCRIPTION_ID 订阅 ID
通过选择“添加机密”来保存每个机密。

GitHub密钥	Active Directory 应用程序
AZURE_CLIENT_ID	应用程序（客户端）ID
AZURE_TENANT_ID (Azure租户ID)	目录（租户）ID
AZURE_SUBSCRIPTION_ID	订阅 ID

步骤 3：更新 `setup.sh` 以连接到Azure Machine Learning工作区

更新 CLI 安装程序文件变量以匹配工作区。

在分支存储库中，转到 azureml-examples/cli/。
编辑 setup.sh 并更新文件中的这些变量。

变量说明

GROUP 资源组的名称

LOCATION 工作区的位置（例如 chinanorth2）

WORKSPACE Azure Machine Learning 工作区的名称

变量	说明
`GROUP`	资源组的名称
`LOCATION`	工作区的位置（例如 `chinanorth2`）
`WORKSPACE`	Azure Machine Learning 工作区的名称

步骤 4：将 `pipeline.yml` 替换为您的计算群集名称

使用 pipeline.yml 文件部署Azure Machine Learning管道。该管道为机器学习管道，而不是 DevOps 管道。如果您的计算群集名称不是 cpu-cluster，则只需进行此更新。

在分支存储库中，转到 azureml-examples/cli/jobs/pipelines/nyc-taxi/pipeline.yml。
每次看到 compute: azureml:cpu-cluster 时，都使用计算群集名称更新 cpu-cluster 的值。例如，如果群集名称为 my-cluster，则新的值为 azureml:my-cluster。有五个更新。

步骤 5：运行GitHub Actions工作流

工作流使用Azure进行身份验证，设置Azure Machine Learning CLI，并使用 CLI 在Azure Machine Learning中训练模型。

OpenID Connect
服务主体

工作流文件由触发器部分和作业组成：

触发器在 on 部分中启动工作流。工作流默认按照 cron 计划运行，同时也会在匹配的分支和路径发出拉取请求时运行。详细了解触发工作流的事件。
在工作流的“作业”部分，您使用 OpenID Connect 签出代码并使用 Azure 登录操作登录到 Azure。
作业部分还包括安装操作和设置操作，这些操作用于安装和设置Machine Learning CLI（v2）。安装 CLI 后，运行作业操作将运行 Azure Machine Learning pipeline.yml 文件，以使用 NYC 出租车数据训练模型。

启用工作流

在分叉存储库中，打开 .github/workflows/cli-jobs-pipelines-nyc-taxi-pipeline.yml 并验证工作流是否如下所示。

注释

存储库中的工作流文件可能包含此处未显示的其他步骤（例如引导和验证）。以下示例显示了核心步骤。

name: cli-jobs-pipelines-nyc-taxi-pipeline
on:
  workflow_dispatch:
  schedule:
    - cron: "0 0/4 * * *"
  pull_request:
    branches:
      - main
    paths:
      - cli/jobs/pipelines/nyc-taxi/**
      - .github/workflows/cli-jobs-pipelines-nyc-taxi-pipeline.yml
      - cli/run-pipeline-jobs.sh
      - cli/setup.sh
permissions:
  id-token: write
jobs:
  build:
    runs-on: ubuntu-latest
    steps:
    - name: check out repo
      uses: actions/checkout@v4
    - name: azure login
      uses: azure/login@v2
      with:
          client-id: ${{ secrets.AZURE_CLIENT_ID }}
          tenant-id: ${{ secrets.AZURE_TENANT_ID }}
          subscription-id: ${{ secrets.AZURE_SUBSCRIPTION_ID }}
    - name: setup
      run: bash setup.sh
      working-directory: cli
      continue-on-error: true
    - name: run job
      run: bash -x ../../../run-job.sh pipeline.yml
      working-directory: cli/jobs/pipelines/nyc-taxi

选择“查看运行”选项。
选择“我已了解工作流，请继续启用”以启用工作流。
选择 cli-jobs-pipelines-nyc-taxi-pipeline 工作流 并选择 启用工作流。
选择“运行工作流”，并选择立即运行工作流。

工作流文件由触发器部分和作业组成：

触发器在 on 部分中启动工作流。工作流默认按照 cron 计划运行，同时也会在匹配的分支和路径发出拉取请求时运行。详细了解触发工作流的事件。
在工作流的“作业”部分中，签出代码并使用服务主体机密登录到Azure。
作业部分还包括安装操作和设置操作，这些操作用于安装和设置Machine Learning CLI（v2）。安装 CLI 后，运行作业操作将运行 Azure Machine Learning pipeline.yml 文件，以使用 NYC 出租车数据训练模型。

启用工作流

在分叉存储库中，打开 .github/workflows/cli-jobs-pipelines-nyc-taxi-pipeline.yml 并验证工作流是否如下所示。

注释

存储库中的工作流文件可能包括此处未显示的其他步骤。以下示例显示了核心步骤。

name: cli-jobs-pipelines-nyc-taxi-pipeline
on:
  workflow_dispatch:
  schedule:
    - cron: "0 0/4 * * *"
  pull_request:
    branches:
      - main
    paths:
      - cli/jobs/pipelines/nyc-taxi/**
      - .github/workflows/cli-jobs-pipelines-nyc-taxi-pipeline.yml
      - cli/run-pipeline-jobs.sh
      - cli/setup.sh
jobs:
  build:
    runs-on: ubuntu-latest
    steps:
    - name: check out repo
      uses: actions/checkout@v4
    - name: azure login
      uses: azure/login@v2
      with:
        creds: ${{secrets.AZURE_CREDENTIALS}}
    - name: setup
      run: bash setup.sh
      working-directory: cli
      continue-on-error: true
    - name: run job
      run: bash -x ../../../run-job.sh pipeline.yml
      working-directory: cli/jobs/pipelines/nyc-taxi

选择“查看运行”选项。
选择“我已了解工作流，请继续启用”以启用工作流。
选择 cli-jobs-pipelines-nyc-taxi-pipeline 工作流 并选择 启用工作流。
选择“运行工作流”，并选择立即运行工作流。

第 6 步：验证您的工作流程运行

打开已完成的工作流运行并验证生成作业是否成功运行。你会看到工作旁边有一个绿色的复选标记。
打开Azure Machine Learning studio，转到 nyc-taxi-pipeline-example。验证作业的每个部分（准备、转换、训练、预测、评分）是否完成，以及是否看到绿色复选标记。

清理资源

不再需要资源组和存储库时，请通过删除资源组和GitHub存储库来清理部署的资源。

后续步骤

使用 Python SDK 创建生产 ML 管道

Last updated on 2026-04-22

将GitHub Actions用于Azure Machine Learning

先决条件

步骤 1：获取代码

步骤 2：使用Azure进行身份验证

生成部署凭据

创建机密

步骤 3：更新 setup.sh 以连接到Azure Machine Learning工作区

步骤 4：将 pipeline.yml 替换为您的计算群集名称

步骤 5：运行GitHub Actions工作流

启用工作流

第 6 步：验证您的工作流程运行

清理资源

后续步骤

其他资源

步骤 3：更新 `setup.sh` 以连接到Azure Machine Learning工作区

步骤 4：将 `pipeline.yml` 替换为您的计算群集名称