为 Azure 机器学习配置 MLflow

项目
02/28/2024

本文介绍如何配置 MLflow 以连接到 Azure 机器学习工作区进行跟踪、注册和部署。

Azure 机器学习工作区与 MLflow 兼容，这意味着它们无需任何额外配置即可充当 MLflow 服务器。每个工作区都有一个 MLflow 跟踪 URI，MLflow 可使用该 URI 连接到工作区。 Azure 机器学习工作区已配置为使用 MLflow，因此无需额外的配置。

但是，如果在 Azure 机器学习外部工作（如本地计算机、Azure Synapse Analytics 或 Azure Databricks），则需要将 MLflow 配置为指向该工作区。

重要

在 Azure 计算（Azure 机器学习笔记本、托管在 Azure 机器学习计算实例上的 Jupyter 笔记本或在 Azure 机器学习计算群集上运行的作业）上运行时，无需配置跟踪 URI。 它将自动进行配置。

先决条件

若要按照本教程操作，需要具备以下先决条件：

安装 MLflow SDK 包 mlflow 和适用于 MLflow azureml-mlflow 的 Azure 机器学习插件。
```
pip install mlflow azureml-mlflow
```
提示

可以使用 mlflow-skinny 包，它是一个不带 SQL 存储、服务器、UI 或数据科学依赖项的轻型 MLflow 包。对于主要需要用到 MLflow 的跟踪和记录功能但不需要导入整个功能套件（包括部署）的用户，建议使用 mlflow-skinny。
一个 Azure 机器学习工作区。可以按照创建机器学习资源教程创建一个。
- 查看在工作区中执行 MLflow 操作所需的访问权限。
如果要执行远程跟踪（即跟踪在 Azure 机器学习外部运行的试验），请将 MLflow 配置为指向 Azure 机器学习工作区的跟踪 URI。有关如何将 MLflow 连接到工作区的详细信息，请参阅为 Azure 机器学习配置 MLflow。

配置 MLflow 跟踪 URI

若要将 MLflow 连接到 Azure 机器学习工作区，需要工作区的跟踪 URI。每个工作区都有自己的跟踪 URI，并且具有协议 azureml://。

获取工作区的跟踪 URI：
- Azure CLI
- Python
- 工作室
- 手动
适用于：Azure CLI ml 扩展 v2（当前版）
1. 登录并配置工作区：
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location> 
```
2. 可以使用 az ml workspace 命令获取跟踪 URI：
```
az ml workspace show --query mlflow_tracking_uri
```
适用于：Python SDK azure-ai-ml v2（当前版本）

可以使用适用于 Python 的 Azure 机器学习 SDK v2 获取 Azure ML MLflow 跟踪 URI。确保在使用的计算中安装了库 azure-ai-ml。以下示例获取与工作区关联的唯一 MLFLow 跟踪 URI。
1. 使用 MLClient 登录到工作区。要执行此操作，更简单方法是使用工作区配置文件：
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())
```
  提示
  
  可以通过以下方式下载工作区配置文件：
  
  导航到 Azure ML 工作室
  
  单击页面右上角 -> 下载配置文件。
  
  将文件 config.json 保存到正在使用的同一目录中。
2. 或者，也可以使用订阅 ID、资源组名称和工作区名称来获取：
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

#Enter details of your AzureML workspace
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<WORKSPACE_NAME>'

ml_client = MLClient(credential=DefaultAzureCredential(),
                        subscription_id=subscription_id, 
                        resource_group_name=resource_group,
                        workspace_name=workspace_name)
```
  重要
  
  DefaultAzureCredential 将尝试从可用上下文中拉取凭据。如果想要以其他方式指定凭据，例如以交互式方式使用 Web 浏览器，则可以使用 InteractiveBrowserCredential 或 azure.identity 包中提供的任何其他方法。
3. 获取 Azure 机器学习跟踪 URI：
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
使用 Azure 机器学习门户获取跟踪 URI：
1. 打开 Azure 机器学习工作室并使用你的凭据登录。
2. 在右上角，单击工作区的名称以显示“目录 + 订阅 + 工作区”边栏选项卡。
3. 单击“在 Azure 门户中查看所有属性”。
4. 可以在“概要”部分中找到“MLflow 跟踪 URI”属性。
Azure 机器学习跟踪 URI 可以使用订阅 ID、资源部署区域、资源组名称和工作区名称来生成。以下代码示例显示了如何：

警告

如果在启用了专用链接的工作区中工作，MLflow 终结点还将使用专用链接与 Azure 机器学习通信。因此，跟踪 URI 看起来会有所不同，如此处所示。在这些情况下，需要使用 Azure ML SDK 或 CLI v2 获取跟踪 URI。
```
region = "<LOCATION>"
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<AML_WORKSPACE_NAME>'

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
配置跟踪 URI：
- 使用 MLflow SDK
- 使用环境变量
然后，set_tracking_uri() 方法将 MLflow 跟踪 URI 指向该 URI。
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
可以在计算中设置 MLflow 环境变量 MLFLOW_TRACKING_URI，从而将与该计算中的 MLflow 的任何交互默认指向 Azure 机器学习。
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
提示

使用共享环境（如 Azure Databricks 群集、Azure Synapse Analytics 群集或类似环境）时，可以在群集级别设置环境变量 MLFLOW_TRACKING_URI 以自动配置 MLflow 跟踪 URI，以指向群集中运行的基于所有会话的 Azure 机器学习，而不是指向群集中运行的基于每会话的 Azure 机器学习。

配置身份验证

设置跟踪后，还需要配置关联工作区的身份验证方式。默认情况下，适用于 MLflow 的 Azure 机器学习插件将通过打开默认浏览器提示输入凭据来执行交互式身份验证。

适用于 MLflow 的 Azure 机器学习插件通过包 azure-identity 支持多种身份验证机制，该包作为插件 azureml-mlflow 的依赖项安装。将逐一尝试以下身份验证方法，直到其中一种方法成功：

环境：通过环境变量读取指定的帐户信息，并使用该信息进行身份验证。
托管标识：如果将应用程序部署到了已启用托管标识的 Azure 主机，则它会使用该标识进行身份验证。
Azure CLI：如果用户通过 Azure CLI az login 命令登录，它会以该用户的身份进行身份验证。
Azure PowerShell：如果用户通过 Azure PowerShell 的 Connect-AzAccount -Environment AzureChinaCloud 命令登录，它会以该用户的身份进行身份验证。
交互式浏览器：通过默认浏览器以交互方式对用户进行身份验证。

如果交互式作业有用户连接到会话，你可以依赖交互式身份验证，因此无需进一步操作。

警告

在系统提示输入凭据时，交互式浏览器身份验证将阻止代码执行。此选项不适用于无人参与的环境（如训练作业）中的身份验证。建议配置其他身份验证模式。

如果需要无人参与的执行，必须将服务主体配置为与 Azure 机器学习通信。

MLflow SDK
使用环境变量

import os

os.environ["AZURE_TENANT_ID"] = "<AZURE_TENANT_ID>"
os.environ["AZURE_CLIENT_ID"] = "<AZURE_CLIENT_ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<AZURE_CLIENT_SECRET>"

export AZURE_TENANT_ID="<AZURE_TENANT_ID>"
export AZURE_CLIENT_ID="<AZURE_CLIENT_ID>"
export AZURE_CLIENT_SECRET="<AZURE_CLIENT_SECRET>"

提示

使用共享环境时，建议在计算中配置这些环境变量。最佳做法是尽可能在 Azure Key Vault 实例中将其作为机密进行管理。例如，在 Azure Databricks 中，可以在群集配置的环境变量中使用机密，如下所示：AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}}。请参阅引用环境变量中的机密或参考平台中的类似文档，了解如何在 Azure Databricks 中执行此操作。

如果希望使用证书而不是机密，可将环境变量 AZURE_CLIENT_CERTIFICATE_PATH 配置为指向 PEM 或 PKCS12 证书文件（包括私钥）的路径，并将 AZURE_CLIENT_CERTIFICATE_PASSWORD 配置为证书文件的密码（如果有）。

配置授权和权限级别

某些默认角色（如 AzureML 数据科学家或参与者）已配置为在 Azure 机器学习工作区中执行 MLflow 操作。如果使用自定义角色，则需要以下权限：

若要使用 MLflow 跟踪：
- Microsoft.MachineLearningServices/workspaces/experiments/*
- Microsoft.MachineLearningServices/workspaces/jobs/*
若要使用 MLflow 模型注册表：
- Microsoft.MachineLearningServices/workspaces/models/*/*

要了解如何为创建的服务主体或用户帐户授予对工作区的访问权限，请参阅授予访问权限。

排查身份验证问题

MLflow 在执行与服务进行交互的第一个操作（如 mlflow.set_experiment() 或 mlflow.start_run()）时，尝试向 Azure 机器学习进行身份验证。如果在此过程中发现问题或意外的身份验证提示，则可以提高日志记录级别以获取有关该错误的更多详细信息：

import logging

logging.getLogger("azure").setLevel(logging.DEBUG)

设置试验名称（可选）

所有 MLflow 运行都会记录到活动试验中。默认情况下，运行将记录到系统自动创建的名为 Default 的试验中。可以配置进行跟踪的试验。

提示

使用 Azure 机器学习 CLI v2 提交作业时，可以使用作业 YAML 定义中的属性 experiment_name 设置试验名称。不必在训练脚本上进行配置。有关详细信息，请参阅 YAML：显示名称、试验名称、说明和标记。

MLflow SDK
使用环境变量

使用 MLflow 命令 mlflow.set_experiment() 配置试验。

experiment_name = 'experiment_with_mlflow'
mlflow.set_experiment(experiment_name)

还可使用试验名称设置一个 MLflow 环境变量：MLFLOW_EXPERIMENT_NAME 或 MLFLOW_EXPERIMENT_ID。

export MLFLOW_EXPERIMENT_NAME="experiment_with_mlflow"

后续步骤

现在环境已连接到 Azure 机器学习中的工作区，可以开始使用它了。