在 Azure 机器学习和其他服务之间设置身份验证

适用范围：Azure CLI ml 扩展 v2（最新版）Python SDK azure-ai-ml v2（最新版）

Azure 机器学习由多个 Azure 服务组成。多种方法支持 Azure 机器学习与它依赖的服务之间的身份验证。

Azure 机器学习工作区使用托管标识来与其他服务通信。默认情况下，此标识是系统分配的托管标识。你也可以改用用户分配的托管标识。
Azure 机器学习使用 Azure 容器注册表 (ACR) 来存储用于训练和部署模型的 Docker 映像。如果允许 Azure 机器学习自动创建 ACR，则会启用 管理员帐户。
Azure 机器学习计算群集使用托管标识从 Azure Key Vault 检索数据存储的连接信息，以及从 ACR 拉取 Docker 映像。还可以配置基于标识的数据存储访问，该访问使用计算群集的托管标识。
根据数据存储服务和配置，可以沿多条路径进行数据访问。例如，对数据存储进行身份验证可能使用帐户密钥、令牌、安全主体、托管标识或用户标识。
托管联机终结点在执行推理时可以使用托管标识访问 Azure 资源。有关详细信息，请参阅从联机终结点访问 Azure 资源。

先决条件

Azure 机器学习工作区。有关创建工作区的说明，请参阅 “创建工作区”。
Azure CLI 和 ml 扩展或 Azure 机器学习 Python SDK v2：
- Azure CLI
- Python SDK
若要安装 Azure CLI 和ml扩展，请参阅安装和设置 CLI（v2）。

本文中的示例假定使用 Bash shell 或兼容的 shell。例如，可以在 Linux 系统或适用于 Linux 的 Windows 子系统上使用 shell。
- Python 3.10 或更高版本。
若要安装 Python SDK v2，请使用以下命令：
```
pip install azure-ai-ml azure-identity
```
要将 SDK 的现有安装更新到最新版本，请使用以下命令：
```
pip install --upgrade azure-ai-ml azure-identity
```
有关详细信息，请参阅适用于 Python 的 Azure 机器学习包客户端库。

若要分配角色，Azure 订阅的登录必须具有托管标识操作员角色，或者授予所需操作的其他角色（如 所有者）。
必须熟悉如何创建和使用托管标识。

按场景划分的 RBAC 角色

根据方案，需要特定的 Azure RBAC 角色：

Scenario	必需的角色
具有用户分配标识的工作区	工作区贡献者、存储 Blob 数据贡献者、密钥保管库管理员或密钥保管库上的访问策略、ACR 上的贡献者
计算群集访问存储	存储帐户上的存储 Blob 数据读取器（最小值）
基于标识的数据访问	Azure Blob 存储、Azure Data Lake Storage Gen1 或 Gen2 上的存储 Blob 数据读取器
从 ACR 拉取映像	容器注册表上的 ACRPull
专属 ACR 访问	专用容器注册表上的 ACRPull

有关分配角色的详细信息，请参阅 “管理对 Azure 机器学习工作区的访问权限”。

选择身份验证方法

下表总结了何时使用每个身份验证方法：

Scenario	建议的标识	替代方法
访问存储、Key Vault 和 ACR 的工作区	系统分配的托管标识	用户分配的托管标识
训练作业中的计算群集	计算托管标识	用户标识（通过作业配置）
Kubernetes 群集推断	终结点托管标识	系统分配的标识
交互式数据访问（笔记本、工作室）	用户标识	工作区托管标识
没有管理员用户的 Azure 容器注册表	系统分配的托管标识	用户分配的托管标识
多个工作区共享资源	具有数据隔离的用户分配的托管标识	系统分配的身份（不推荐）

局限性

在配置身份验证之前，请注意以下限制：

标识类型更改：在创建了同时具有系统分配和用户分配标识（SAI+UAI）的工作区后，无法将其恢复为仅具有系统分配标识（SAI）。
跨租户访问：不支持跨租户访问存储帐户。如果方案需要跨租户访问，请创建 Azure 支持请求以获取有关自定义代码解决方案的帮助。
计算群集标识：Azure 机器学习计算群集仅支持 一个系统分配的标识 或 多个用户分配的标识，而不是同时支持这两种标识。
Kubernetes 群集标识：Azure 机器学习 Kubernetes 群集仅支持 一个系统分配的标识 或 一个用户分配的标识，而不是同时支持这两种标识。
终结点标识不可变性：联机终结点的标识是不可变的。可以在创建期间将其与系统分配的标识（默认值）或用户分配的标识相关联，但在创建终结点后无法更改它。
数据隔离计时：只能在创建工作区时设置数据隔离选项。创建工作区后，无法启用或禁用它。

验证设置

配置托管标识后，请验证设置是否正常工作。

适用于：Azure CLI ml 扩展 v2（当前）

# Verify workspace identity
az ml workspace show --name <workspace-name> --resource-group <resource-group> --query identity

预期输出：JSON 对象应显示标识类型（SystemAssigned、UserAssigned或SystemAssigned,UserAssigned）和主体 ID。

# Verify compute cluster identity
az ml compute show --name <compute-name> --resource-group <resource-group> --workspace-name <workspace-name> --query identity

预期输出：显示计算群集的托管标识配置的 JSON 对象。

适用范围：Python SDK azure-ai-ml v2（最新版）

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential, InteractiveBrowserCredential

try:
    credential = DefaultAzureCredential()
    credential.get_token("https://management.chinacloudapi.cn/.default")
except Exception:
    credential = InteractiveBrowserCredential()
ml_client = MLClient(credential, "<subscription-id>", "<resource-group>", "<workspace-name>")

# Verify workspace identity
workspace = ml_client.workspaces.get("<workspace-name>")
print(f"Identity type: {workspace.identity.type}")
print(f"Principal ID: {workspace.identity.principal_id}")

预期结果：输出标识类型和主体 ID。如果使用用户分配的标识，还打印用户分配的标识资源 ID。

参考： MLClient.workspaces.get

工作区标识类型

Azure 机器学习工作区使用托管标识来与其他服务通信。 Azure 机器学习支持多种标识类型。

托管标识类型	角色分配创建	目的
系统分配 (SAI)	由 Microsoft 管理	与资源关联的生命周期；单个资源使用；简单入门
系统分配标识 + 用户分配标识 (SAI+UAI)	由你管理	用户分配标识的独立生命周期;多资源使用;控制最低特权访问;访问训练作业中的数据。

使用 SAI 标识类型创建工作区后，可以将其更新为 SAI+UAI。无法将工作区从 SAI+UAI 更新为 SAI。可以将多个用户分配的标识分配给同一工作区。

用户分配的托管标识

工作区

从 Azure 门户创建 Azure 机器学习工作区时，可以添加用户分配的托管标识。创建工作区时使用以下步骤：

在“基本信息”页中，选择要用于工作区的 Azure 存储帐户、Azure 容器注册表和 Azure 密钥保管库。
在“标识”页中，选择“用户分配的标识”，然后选择要使用的托管标识。

Azure 机器学习工作区的用户分配托管标识需要以下 Azure RBAC 角色分配，才能访问与工作区关联的资源中的数据。

资源	权限
Azure 机器学习工作区	参与者
Azure 存储	参与者（控制平面）+ 存储 Blob 数据参与者（数据平面，可选，用于在 Azure 机器学习工作室中启用数据预览）
Azure Key Vault（当使用 RBAC 权限模型时）	参与者（控制平面）+ Key Vault 管理员（数据平面）
Azure Key Vault（当使用访问策略权限模型时）	参与者 + 除清除操作之外的任何访问策略权限
Azure 容器注册表	参与者
Azure Application Insights	参与者

若要在用户分配的托管标识上自动创建角色分配，可以使用此 ARM 模板。

提示

对于具有用于加密的客户管理的密钥的工作区，可以传入用户分配的托管标识以从存储向密钥保管库进行身份验证。使用 user-assigned-identity-for-cmk-encryption (CLI) 或 user_assigned_identity_for_cmk_encryption (SDK) 参数传入托管标识。此托管标识可与工作区主要用户分配的托管标识相同，也可不同。

查找用户分配的托管标识资源 ID

在配置用户分配的托管标识（UAI）时，需要获取其资源 ID。使用以下方法之一查找它：

Azure 门户：导航到托管标识资源，从左侧菜单中选择 “属性” ，然后复制 “资源 ID ”值。

Azure CLI：运行以下命令：

az identity show --name <identity-name> --resource-group <resource-group> --query id --output tsv

资源 ID 遵循以下格式：

/subscriptions/<subscription-id>/resourceGroups/<resource-group>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<identity-name>

若要使用多个用户分配的标识创建工作区，请使用以下方法之一：

适用于：Azure CLI ml 扩展 v2（当前）

az ml workspace create -f workspace_creation_with_multiple_UAIs.yml --subscription <subscription ID> --resource-group <resource group name> --name <workspace name>

以下示例显示了 workspace_creation_with_multiple_UAIs.yml的内容：

location: <region name>
identity:
   type: user_assigned
   user_assigned_identities:
    # Format: /subscriptions/<sub-id>/resourceGroups/<rg>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<name>
    '<UAI resource ID 1>': {}
    '<UAI resource ID 2>': {}
storage_account: <storage account resource ID>
key_vault: <key vault resource ID>
image_build_compute: <compute (virtual machine) resource ID>
primary_user_assigned_identity: <one of the UAI resource IDs in the above list>

适用范围：Python SDK azure-ai-ml v2（最新版）

from azure.ai.ml import MLClient, load_workspace
from azure.identity import DefaultAzureCredential

sub_id="<subscription ID>"
rg_name="<resource group name>"
ws_name="<workspace name>"

client = MLClient(DefaultAzureCredential(), sub_id, rg_name)
wps = load_workspace("workspace_creation_with_multiple_UAIs.yml")

workspace = client.workspaces.begin_create(workspace=wps).result()

预期结果：返回 Workspace 具有已配置的用户分配标识的对象。此操作可能需要几分钟完成。

参考： MLClient.workspaces.begin_create | load_workspace

若要更新工作区的用户分配标识，包括添加新标识或删除现有工作区，请使用以下方法之一：

适用于：Azure CLI ml 扩展 v2（当前）

az ml workspace update -f workspace_update_with_multiple_UAIs.yml --subscription <subscription ID> --resource-group <resource group name> --name <workspace name>

以下示例显示了 workspace_update_with_multiple_UAIs.yml的内容：

identity:
   type: user_assigned
   user_assigned_identities:
    # Format: /subscriptions/<sub-id>/resourceGroups/<rg>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<name>
    '<UAI resource ID 1>': {}
    '<UAI resource ID 2>': {}
primary_user_assigned_identity: <one of the UAI resource IDs in the above list>

适用范围：Python SDK azure-ai-ml v2（最新版）

from azure.ai.ml import MLClient, load_workspace
from azure.identity import DefaultAzureCredential

sub_id="<subscription ID>"
rg_name="<resource group name>"
ws_name="<workspace name>"

client = MLClient(DefaultAzureCredential(), sub_id, rg_name)
wps = load_workspace("workspace_update_with_multiple_UAIs.yml")

workspace = client.workspaces.begin_update(workspace=wps).result()

预期结果：返回更新 Workspace 的对象。通过检查 workspace.identity.user_assigned_identities来验证更新。

参考： MLClient.workspaces.begin_update

提示

若要添加新的 UAI，请在 user_assigned_identities 段中指定新的 UAI ID 以及现有的 UAI。必须传递所有现有的 UAI ID。
若要删除一个或多个现有的 UAI，请将要保留的 UAI ID 添加到user_assigned_identities部分下。不包括的 UAI ID 将被删除。

除了系统分配的标识之外，还向工作区添加用户分配的托管标识

在某些情况下，除了默认的系统分配的工作区标识之外，可能需要使用用户分配的托管标识。若要在不更改现有工作区标识的情况下添加用户分配的托管标识，请使用以下步骤：

创建用户分配的托管标识。保存所创建的托管标识的 ID。

若要将托管标识附加到工作区，请创建一个指定标识的 YAML 文件。以下示例显示了 YAML 文件的内容。将 <TENANT_ID>、<RESOURCE_GROUP> 和 <USER_MANAGED_ID> 占位符替换为你的值。

identity:
    type: system_assigned,user_assigned
    tenant_id: <TENANT_ID>
    user_assigned_identities:
        '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<USER_MANAGED_ID>':
        {}

使用 Azure CLI az ml workspace update 命令更新工作区。使用 --file 参数指定上一步中的 YAML 文件。以下示例展示了这种命令：
```
az ml workspace update --resource-group <RESOURCE_GROUP> --name <WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml
```

共享资源的数据隔离

当多个工作区共享相同的关联资源（存储帐户、密钥保管库或容器注册表）时，启用数据隔离以防止命名冲突，并确保每个工作区只能访问自己的数据。此 enableDataIsolation 标志配置工作区项目在共享资源中的存储和访问方式。

重要

只能在创建工作区时设置数据隔离选项。创建工作区后，无法启用或禁用它。

启用数据隔离的影响

启用数据隔离时，工作区将应用以下配置：

资源	行为
存储帐户	容器名称以工作区 GUID（例如） `{workspaceGUID}-azureml-blobstore`作为前缀。工作区托管标识会获得数据平面角色分配，其中包含 Azure 基于属性的访问控制 (ABAC) 条件，该条件将访问权限限制为仅工作区的特定容器。
密钥保管库	机密名称以工作区 GUID 作为前缀，用于隔离共享同一密钥保管库的工作区之间的机密。
容器注册表	Docker 映像名称以工作区 GUID 作为前缀，用于隔离共享同一注册表的工作区之间的映像。

按工作区类型的默认行为

Azure 机器学习支持不同组织模式的不同工作区类型：

默认值：单个项目或团队的独立工作区。此工作区类型是标准工作区类型。
中心：一个中心工作区，用于管理多个相关项目的共享资源、策略和连接。有关详细信息，请参阅中心工作区。
项目：从父中心工作区继承资源和设置的轻量级工作区。

数据隔离的默认值取决于工作区类型：

工作区类型	数据隔离默认值
`hub`	已启用
`project`	已启用（继承自中心）
`default`	Disabled

何时启用数据隔离

启用数据隔离时：

多个工作区共享相同的存储帐户、密钥保管库或容器注册表。
需要防止在工作区中使用同名创建工件（例如 Docker 映像或机密）时发生命名冲突。
需要更严格的访问控制，以确保工作区标识只能访问自己的数据。

对于中心和项目工作区，默认启用数据隔离以支持共享资源模型。有关详细信息，请参阅什么是 Azure 机器学习中心工作区？

创建工作区时启用数据隔离

适用于：Azure CLI ml 扩展 v2（当前）

az ml workspace create --name <WORKSPACE_NAME> \
    --resource-group <RESOURCE_GROUP> \
    --enable-data-isolation

或者，在 YAML 配置文件中指定数据隔离：

$schema: https://azuremlschemas.azureedge.net/latest/workspace.schema.json
name: my-workspace
location: eastus
enable_data_isolation: true
storage_account: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Storage/storageAccounts/<STORAGE_ACCOUNT>
key_vault: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.KeyVault/vaults/<KEY_VAULT>
container_registry: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ContainerRegistry/registries/<CONTAINER_REGISTRY>

然后创建工作区：

az ml workspace create --file workspace.yml --resource-group <RESOURCE_GROUP>

适用范围：Python SDK azure-ai-ml v2（最新版）

from azure.ai.ml import MLClient
from azure.ai.ml.entities import Workspace
from azure.identity import DefaultAzureCredential, InteractiveBrowserCredential

# Replace with your Azure subscription and resource group
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"

try:
    credential = DefaultAzureCredential()
    credential.get_token("https://management.chinacloudapi.cn/.default")
except Exception:
    credential = InteractiveBrowserCredential()
ml_client = MLClient(credential, subscription_id, resource_group)

workspace = Workspace(
    name="my-workspace",
    location="eastus",
    enable_data_isolation=True,
    storage_account="/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Storage/storageAccounts/<STORAGE_ACCOUNT>",
    key_vault="/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.KeyVault/vaults/<KEY_VAULT>",
    container_registry="/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ContainerRegistry/registries/<CONTAINER_REGISTRY>"
)

ml_client.workspaces.begin_create(workspace).result()

预期结果：返回创建的包含Workspace的enable_data_isolation=True对象。存储帐户中的容器名称以工作区 GUID 为前缀。

参考：工作区

计算群集

注意

Azure 机器学习计算群集只支持一个系统分配的标识或支持多个用户分配的标识，而不能同时支持这二者。

默认托管标识是系统分配的托管标识或第一个用户分配的托管标识。

在运行期间，标识有两个应用场景：

系统使用标识来设置用户的存储装载、容器注册表和数据存储。
- 在这种情况下，系统使用默认托管标识。
应用标识以便从已提交作业的代码中访问资源：
- 在这种情况下，请提供与要用于检索凭据的托管标识对应的 client_id。
- 或者，通过 DEFAULT_IDENTITY_CLIENT_ID 环境变量获取用户分配的标识的客户端 ID。
例如，若要使用默认托管标识检索数据存储的令牌，请执行以下操作：
```
import os
from azure.identity import ManagedIdentityCredential

client_id = os.environ.get('DEFAULT_IDENTITY_CLIENT_ID')
credential = ManagedIdentityCredential(client_id=client_id)
token = credential.get_token('https://storage.azure.com/')
```
预期结果：返回 Azure 存储的访问令牌。如果未 DEFAULT_IDENTITY_CLIENT_ID 设置，调用将失败，并出现环境变量错误。

参考： ManagedIdentityCredential

若要使用托管标识配置计算群集，请使用以下方法之一：

适用于：Azure CLI ml 扩展 v2（当前）

az ml compute create -f create-cluster.yml

以下示例显示了 create-cluster.yml的内容：

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: basic-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
identity:
  type: user_assigned
  user_assigned_identities: 
    - resource_id: "identity_resource_id"

以下示例摘自某个 YAML 文件，它创建一个使用系统分配的托管标识的群集用于比较：

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: basic-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
identity:
  type: system_assigned

如果有现有的计算群集，则可以在用户托管标识和系统托管标识之间切换。以下示例演示如何更改配置：

用户分配的托管标识

export MSI_NAME=my-cluster-identity
export COMPUTE_NAME=mycluster-msi

does_compute_exist()
{
  if [ -z $(az ml compute show -n $COMPUTE_NAME --query name) ]; then
    echo false
  else
    echo true
  fi
}

echo "Creating MSI $MSI_NAME"
# Get the resource id of the identity
IDENTITY_ID=$(az identity show --name "$MSI_NAME" --query id -o tsv | tail -n1 | tr -d "[:cntrl:]" || true)
if [[ -z $IDENTITY_ID ]]; then
    IDENTITY_ID=$(az identity create -n "$MSI_NAME" --query id -o tsv | tail -n1 | tr -d "[:cntrl:]")
fi
echo "MSI created: $MSI_NAME"
sleep 15 # Let the previous command finish: https://github.com/Azure/azure-cli/issues/8530


echo "Checking if compute $COMPUTE_NAME already exists"
if [ "$(does_compute_exist)" == "true" ]; then
  echo "Skipping, compute: $COMPUTE_NAME exists"
else
  echo "Provisioning compute: $COMPUTE_NAME"
  az ml compute create --name "$COMPUTE_NAME" --type amlcompute --identity-type user_assigned --user-assigned-identities "$IDENTITY_ID"
fi
az ml compute update --name "$COMPUTE_NAME" --identity-type user_assigned --user-assigned-identities "$IDENTITY_ID"

系统分配的托管标识

export COMPUTE_NAME=mycluster-sa

does_compute_exist()
{
  if [ -z $(az ml compute show -n $COMPUTE_NAME --query name) ]; then
    echo false
  else
    echo true
  fi
}

echo "Checking if compute $COMPUTE_NAME already exists"
if [ "$(does_compute_exist)" == "true" ]; then
  echo "Skipping, compute: $COMPUTE_NAME exists"
else
  echo "Provisioning compute: $COMPUTE_NAME"
  az ml compute create --name "$COMPUTE_NAME" --type amlcompute
fi

az ml compute update --name "$COMPUTE_NAME" --identity-type system_assigned

适用范围：Python SDK azure-ai-ml v2（最新版）

from azure.ai.ml.entities import ManagedIdentityConfiguration, IdentityConfiguration, AmlCompute
from azure.ai.ml.constants import ManagedServiceIdentityType

# Create an identity configuration from the user-assigned managed identity
managed_identity = ManagedIdentityConfiguration(resource_id="/subscriptions/<subscription_id>/resourcegroups/<resource_group>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<identity>")
identity_config = IdentityConfiguration(type = ManagedServiceIdentityType.USER_ASSIGNED, user_assigned_identities=[managed_identity])

# specify aml compute name.
cpu_compute_target = "cpu-cluster"

try:
    ml_client.compute.get(cpu_compute_target)
except Exception:
    print("Creating a new cpu compute target...")
    # Pass the identity configuration
    compute = AmlCompute(
        name=cpu_compute_target, size="STANDARD_D2_V2", min_instances=0, max_instances=4, identity=identity_config
    )
    ml_client.compute.begin_create_or_update(compute)

预期结果：使用指定的托管标识创建或更新计算群集。该作返回一个 AmlCompute 对象。

参考： AmlCompute | ManagedIdentityConfiguration | IdentityConfiguration

Kubernetes 群集计算

注意

Azure 机器学习 Kubernetes 群集仅支持 一个系统分配的标识 或 一个用户分配的标识，而不是同时支持这两种标识。

默认托管标识是系统分配的托管标识或第一个用户分配的托管标识。

在运行期间，标识有两个应用场景：

系统使用标识来设置用户的存储装载、容器注册表和数据存储。
- 在这种情况下，系统使用默认托管标识。
应用标识以便从已提交作业的代码中访问资源：
- 对于 Kubernetes 群集计算，应提供 ManagedIdentityCredential 对象 ，而无需任何client_id。
例如，若要使用默认托管标识检索数据存储的令牌，请执行以下操作：
```
from azure.identity import ManagedIdentityCredential

credential = ManagedIdentityCredential()
token = credential.get_token('https://storage.azure.com/')
```
预期结果：返回 Azure 存储的访问令牌。与计算群集不同，请不要为 Kubernetes 群集指定一个 client_id 。

参考： ManagedIdentityCredential

若要配置 Kubernetes 群集计算，请确保其中部署了必要的 AML 扩展，并按照有关如何将 Kubernetes 群集计算附加到 AML 工作区的文档进行作。

重要

对于训练场景（机器学习作业），使用分配给 Kubernetes 群集计算资源的标识。但是，对于推断（托管联机终结点），请使用分配给终结点的标识。有关详细信息，请参阅如何从联机终结点访问 Azure 资源。

数据存储

创建使用 基于标识的数据访问的数据存储时，请使用 Azure 帐户（Microsoft Entra 令牌）确认你有权访问存储服务。在 基于标识的数据访问 方案中，不会保存任何身份验证凭据。仅将存储帐户信息存储在数据存储中。

相比之下，使用基于凭据的身份验证的数据存储将连接信息（如存储帐户密钥或 SAS 令牌）缓存在与工作区关联的密钥保管库中。此方法的限制是，具有足够权限的其他工作区用户可以检索这些凭据，这可能对某些组织构成安全隐患。

有关如何对数据访问进行身份验证的详细信息，请参阅数据管理一文。有关配置基于标识的数据访问的信息，请参阅创建数据存储。

在以下两种情况下，你可以在 Azure 机器学习中应用基于标识的数据访问。当使用机密数据且需要更精细的数据访问管理时，这些方案非常适合基于标识的访问：

访问存储服务
训练机器学习模型

通过使用基于标识的访问，可以使用基于角色的访问控制（RBAC）来限制哪些标识（如用户或计算资源）有权访问数据。

访问存储服务

可以通过 Azure 机器学习数据存储，使用基于标识的数据访问来连接存储服务。

使用基于标识的数据访问时，Azure 机器学习会提示你输入用于数据访问身份验证的 Microsoft Entra 令牌，而不是将凭据保存在数据存储中。此方法允许在存储级别进行数据访问管理，并使凭据保密。

通过本地计算机或计算实例上的 Jupyter Notebook 以交互方式处理数据时，同一行为适用。

注意

通过基于凭据的身份验证存储的凭据包括订阅 ID、共享访问签名（SAS）令牌、存储访问密钥和服务主体信息，例如客户端 ID 和租户 ID。

若要安全地连接到 Azure 上的存储服务，Azure 机器学习要求你有权访问相应的数据存储。

警告

不支持跨租户访问存储帐户。如果方案需要跨租户访问，请创建 Azure 支持请求以获取有关自定义代码解决方案的帮助。

基于标识的数据访问仅支持与以下存储服务的连接：

Azure Blob 存储
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2

若要访问这些存储服务，必须至少具有存储帐户存储 Blob 数据读取者访问权限。只有存储帐户所有者可以通过 Azure 门户更改访问级别。

使用托管标识访问计算群集上训练作业的数据

某些机器学习方案涉及使用专用数据。在这种情况下，数据科学家可能无法像Microsoft Entra 用户那样直接访问数据。在此方案中，使用计算的托管标识进行数据访问身份验证。只能从执行训练作业的计算实例或机器学习计算群集访问数据。通过使用这种方法，管理员为存储授予了计算实例或计算群集托管标识的 Storage Blob Data Reader 权限。不需要为各个数据科学家分别授予访问权限。

若要使用计算机托管身份启用身份验证，请执行以下操作：

创建启用托管标识的计算。请参阅计算群集部分；对于计算实例，请参阅分配托管标识（预览版）部分。

重要

如果将计算实例配置为空闲关闭，则计算实例不会由于不活动而关闭，除非托管标识具有对 Azure 机器学习工作区 的参与者 访问权限。有关分配权限的详细信息，请参阅管理对 Azure 机器学习工作区的访问权限。
至少向计算托管标识授予存储帐户中的“存储 Blob 数据读者”角色。
创建启用基于标识的身份验证的任何数据存储。请参阅创建数据存储。

注意

在 Microsoft Entra ID 中，为计算实例或群集创建的系统托管标识的名字的格式是 /workspace-name/computes/compute-name。

启用基于标识的身份验证后，在访问训练作业中的数据时，默认使用计算托管标识。（可选）可以按照下一部分所述的步骤使用用户标识进行身份验证。

有关为存储配置 Azure RBAC 的信息，请参阅基于角色的访问控制。

使用用户标识访问计算群集上训练作业的数据

适用于：Azure CLI ml 扩展 v2（当前）

在 Azure 机器学习计算群集上训练时，可以使用用户Microsoft Entra 令牌对存储进行身份验证。

使用此身份验证模式，可以：

设置精细的权限，其中不同的工作区用户可以访问存储帐户中的不同存储帐户或文件夹。
让数据科学家重用对存储系统的现有权限。
审核存储访问，因为存储日志会显示用于访问数据的标识。

重要

此功能具有以下限制：

通过 Azure 机器学习 CLI 和 Python SDK V2 提交的试验支持此功能，但 ML Studio 不支持此功能。
不能在同一作业中使用用户标识和计算托管标识进行身份验证。
对于管道作业，请在运行于计算资源上的各个步骤级别设置用户标识，而非在根管道级别设置。虽然根管道和步骤级别都支持标识设置，但如果同时设置了两者，则步骤级别设置将优先。但是，对于包含管道组件的管道，必须在运行的各个步骤上设置标识。在根管道或管道组件级别设置的标识不起作用。因此，为简单起见，请在各个步骤级别设置标识。

若要通过 CLI 为计算群集上的训练作业使用用户标识设置数据访问，请执行以下步骤：

向用户标识授予对存储资源的访问权限。例如，向 StorageBlobReader 授予对要使用的特定存储帐户的访问权限，或授予对 Azure Data Lake Gen 2 存储中特定文件夹或文件的基于 ACL 的权限。
在没有存储帐户的缓存凭据的情况下，创建 Azure 机器学习数据存储。如果数据存储具有缓存凭据（例如存储帐户密钥），则使用这些凭据而不是用户标识。

提交属性 identity 设置为 type: user_identity 的训练作业，如以下作业指定所示。在训练作业期间，通过提交作业的用户标识对存储进行身份验证。

注意

如果未指定标识属性，并且数据存储没有缓存凭据，则系统会使用计算机托管标识作为回退。

command: |
echo "--census-csv: ${{inputs.census_csv}}"
python hello-census.py --census-csv ${{inputs.census_csv}}
code: src
inputs:
census_csv:
    type: uri_file 
    path: azureml://datastores/mydata/paths/census.csv
environment: azureml:AzureML-sklearn-1.0-ubuntu20.04-py38-cpu@latest
compute: azureml:cpu-cluster
identity:
type: user_identity

若要使用用户标识通过 Python SDK 在计算群集上训练作业来设置数据访问，请执行以下步骤：

根据前面关于 CLI 的描述，授予数据访问权限并创建数据存储。

提交标识参数设置为 azure.ai.ml.UserIdentityConfiguration 的训练作业。此参数设置使作业能够代表提交作业的用户访问数据。

from azure.ai.ml import command
from azure.ai.ml.entities import Data, UriReference
from azure.ai.ml import Input
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import UserIdentityConfiguration

# Specify the data location
my_job_inputs = {
    "input_data": Input(type=AssetTypes.URI_FILE, path="<path-to-my-data>")
}

# Define the job
job = command(
    code="<my-local-code-location>", 
    command="python <my-script>.py --input_data ${{inputs.input_data}}",
    inputs=my_job_inputs,
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu:9",
    compute="<my-compute-cluster-name>",
    identity= UserIdentityConfiguration() 
)
# submit the command
returned_job = ml_client.jobs.create_or_update(job)

重要

使用用户标识进行身份验证提交作业时，校验和验证会保护代码快照免受篡改。如果你有现有的管道组件，并且你打算使用用户标识将它们与身份验证一起使用，则可能需要重新上传它们。否则，作业可能会在校验和验证期间失败。

使用虚拟网络

默认情况下，Azure 机器学习无法与防火墙后面或虚拟网络中的存储帐户通信。

可以将存储帐户配置为仅允许从特定虚拟网络进行访问。要确保数据不会泄露到外部网络，还需要对此配置执行其他步骤。基于凭据的数据访问同样具有此行为。有关详细信息，请参阅如何防止数据外泄。

如果存储帐户具有虚拟网络设置，则这些设置决定了需要哪些标识类型和权限访问权限。例如，对于数据预览和数据配置文件，虚拟网络设置确定用于对数据访问进行身份验证的标识类型。

在只有某些 IP 和子网可以访问存储的情况下，Azure 机器学习使用工作区 MSI 来完成数据预览和剖析。
如果您的存储是 ADLS Gen2 或 Blob，并且具有虚拟网络设置，则可以根据在创建数据存储时定义的设置，选择使用用户身份或工作区 MSI。
如果虚拟网络设置是 “允许受信任的服务”列表中的 Azure 服务访问此存储帐户，则使用工作区 MSI。

方案：没有管理员用户的 Azure 容器注册表

禁用 ACR 的管理员用户时，Azure 机器学习使用托管标识来生成和拉取 Docker 映像。将 Azure 机器学习配置为在禁用管理员用户的情况下使用 ACR 时，有两个工作流：

允许 Azure 机器学习创建 ACR 实例，然后禁用管理员用户。
使用已禁用管理员用户的现有 ACR。

使用自动创建的 ACR 实例的 Azure 机器学习

创建新的 Azure 机器学习工作区。
执行需要 Azure 容器注册表的操作。例如，请参阅教程：训练第一个模型。

获取群集创建的 ACR 的名称。

适用于：Azure CLI ml 扩展 v2（当前）

az ml workspace show --name <my workspace name> \
--resource-group <my resource group> \
--subscription <my subscription id> \
--query container_registry

此命令返回类似于以下文本的值。只需要文本的最后一部分，即 ACR 实例名称：

/subscriptions/<subscription id>/resourceGroups/<my resource group>/providers/MicrosoftContainerReggistry/registries/<ACR instance name>

更新 ACR 以禁用管理员用户：

az acr update --name <ACR instance name> --admin-enabled false

自带 ACR

如果订阅策略禁止 ACR 管理员用户，请先创建没有管理员用户的 ACR，然后将其与工作区相关联。通过 Azure CLI 创建 ACR 而不设置 --admin-enabled 参数，或者从 Azure 门户创建 ACR，而无需启用管理员用户。创建 Azure 机器学习工作区时，请指定 ACR 的 Azure 资源 ID。下面的示例演示如何创建使用现有 ACR 的新 Azure 机器学习工作区：

适用于：Azure CLI ml 扩展 v2（当前）

az ml workspace create -n <workspace name> \
-g <workspace resource group> \
-l <region> \
--container-registry /subscriptions/<subscription id>/resourceGroups/<acr resource group>/providers/Microsoft.ContainerRegistry/registries/<acr name>

提示

若要获取 --container-registry 参数的值，请使用 az acr show 命令显示 ACR 的信息。 id 字段包含 ACR 的资源 ID。

此外，如果已禁用管理员用户的现有 ACR，可以通过更新它将其附加到工作区。以下示例演示如何更新 Azure 机器学习工作区以使用现有 ACR：

适用于：Azure CLI ml 扩展 v2（当前）

az ml workspace update --update-dependent-resources \
--name <workspace name> \
--resource-group <workspace resource group> \
--container-registry /subscriptions/<subscription id>/resourceGroups/<acr resource group>/providers/Microsoft.ContainerRegistry/registries/<acr name>

使用托管标识创建计算以访问用于训练的 Docker 映像

若要访问工作区 ACR，请创建启用了系统分配的托管标识的机器学习计算群集。可以在创建计算时，或通过 Azure 门户、Azure 机器学习工作室或使用 Azure CLI 的以下命令启用身份。有关详细信息，请参阅将托管标识用于计算群集。

适用于：Azure CLI ml 扩展 v2（当前）

az ml compute create --name cpu-cluster --type <cluster name>  --identity-type systemassigned

适用范围：Python SDK azure-ai-ml v2（最新版）

    from azure.ai.ml.entities import IdentityConfiguration, AmlCompute
    from azure.ai.ml.constants import ManagedServiceIdentityType
    
    # Create an identity configuration for a system-assigned managed identity
    identity_config = IdentityConfiguration(type = ManagedServiceIdentityType.SYSTEM_ASSIGNED)
    
    # specify aml compute name.
    cpu_compute_target = "cpu-cluster"
    
    try:
        ml_client.compute.get(cpu_compute_target)
    except Exception:
        print("Creating a new cpu compute target...")
        # Pass the identity configuration
        compute = AmlCompute(
            name=cpu_compute_target, size="STANDARD_D2_V2", min_instances=0, max_instances=4, identity=identity_config
        )
        ml_client.compute.begin_create_or_update(compute)

托管标识会自动在工作区的 ACR 上被授予 ACRPull 角色，以便拉取 Docker 映像进行训练。

注意

如果先创建计算资源，而工作区 ACR 尚未存在，则需要手动分配 ACRPull 角色。

使用 Docker 映像进行推理

在不配置管理员用户的情况下如前所述配置 ACR 后，您可以无需管理员密钥即可通过 Azure Kubernetes 服务（AKS）访问用于推理的 Docker 映像。创建或将 AKS 群集附加到工作区时，群集的服务主体将自动获得对工作区 ACR 的 ACRPull 访问权限。

注意

如果自带 AKS 群集，则群集必须已启用服务主体而不是托管标识。

方案：使用专用 Azure 容器注册表

默认情况下，Azure 机器学习使用Microsoft管理的公共存储库中的 Docker 基础映像。它会在这些映像上生成训练或推理环境。有关详细信息，请参阅什么是 ML 环境？

若要使用企业内部的自定义基础映像，请使用托管标识访问专用 ACR。

按前面所述创建启用了系统分配的托管标识的机器学习计算群集。然后，确定托管标识的主体 ID。

适用于：Azure CLI ml 扩展 v2（当前）
```
az ml compute show --name <cluster name> -n <workspace> -g <resource group>
```
或者，可以更新计算群集来分配用户分配的托管标识：

适用于：Azure CLI ml 扩展 v2（当前）
```
az ml compute update --name <cluster name> --user-assigned-identities <my-identity-id>
```

若要允许计算群集拉取基础映像，请授予专用 ACR 上的托管服务标识（工作区或计算）ACRPull 角色。

适用于：Azure CLI ml 扩展 v2（当前）

az role assignment create --assignee <principal ID> \
--role acrpull \
--scope "/subscriptions/<subscription ID>/resourceGroups/<private ACR resource group>/providers/Microsoft.ContainerRegistry/registries/<private ACR name>"

创建环境并在环境 YAML 文件中指定基本映像位置。以下 YAML 文件演示如何定义引用专用 ACR 的环境。将<acr-url>替换为专用 ACR 的 URL，例如myregistry.azurecr.io。将 <image-path> 替换为专用 ACR 中的图像路径，例如 pytorch/pytorch:latest：
```
$schema: https://azuremlschemas.azureedge.net/latest/environment.schema.json
name: docker-image-example
image: <acr-url>/<image-path>:latest
description: Environment created from a Docker image.
```
以下命令演示如何从 YAML 文件创建环境。请将 <yaml file> 替换为您的 YAML 文件路径。
```
az ml environment create --file <yaml file>
```
现在可以在训练作业中使用环境。

Troubleshooting

本部分解决了配置基于标识的身份验证时的常见问题。

身份无权访问存储

症状：尝试从 Azure 存储访问数据时收到 403 禁止访问错误。

原因：托管标识在存储帐户上没有所需的 Azure RBAC 角色。

解决方法：将适当的角色分配给托管标识：

# Assign Storage Blob Data Reader role
az role assignment create \
    --assignee <principal-id> \
    --role "Storage Blob Data Reader" \
    --scope /subscriptions/<subscription-id>/resourceGroups/<resource-group>/providers/Microsoft.Storage/storageAccounts/<storage-account>

用来自<principal-id>部分的托管标识的主体 ID 替换。

训练作业中令牌检索失败

症状： ManagedIdentityCredential 无法检索出现环境变量错误的令牌。

原因： DEFAULT_IDENTITY_CLIENT_ID 未设置环境变量，或者计算群集未配置托管标识。

解决方法：

验证计算群集是否已启用托管标识。请参阅计算群集。
在代码中，从环境中检索客户端 ID：

import os
from azure.identity import ManagedIdentityCredential

client_id = os.environ.get('DEFAULT_IDENTITY_CLIENT_ID')
if not client_id:
    raise ValueError("DEFAULT_IDENTITY_CLIENT_ID environment variable not set. Verify compute has managed identity enabled.")

credential = ManagedIdentityCredential(client_id=client_id)

存储防火墙阻止访问

症状：存储帐户启用了防火墙规则时出现拒绝访问错误。

原因：工作区或计算托管标识无法通过防火墙访问存储。

解决方法：将存储帐户配置为允许从受信任的 Azure 服务进行访问：

在 Azure 门户网站中，访问存储帐户。
选择网络>防火墙和虚拟网络。
在“异常”下面，选择“允许受信任的服务列表中的 Azure 服务访问此存储帐户”。

有关详细信息，请参阅 “使用虚拟网络”。

ACR 映像拉取失败

症状：训练作业无法从 Azure 容器注册表拉取 Docker 映像。

原因：计算托管标识在容器注册表上没有 ACRPull 角色。

解决方法：分配 ACRPull 角色：

az role assignment create \
    --assignee <principal-id> \
    --role acrpull \
    --scope /subscriptions/<subscription-id>/resourceGroups/<resource-group>/providers/Microsoft.ContainerRegistry/registries/<registry-name>

注意

如果在工作区 ACR 存在之前创建计算群集，则必须手动分配 ACRPull 角色。

用户身份验证在工作中失败

症状：在校验和验证期间，使用用户标识进行数据访问的作业失败。

原因：在启用用户标识身份验证之前，需要重新上传管道组件。

解决方法：重新上传管道组件，以生成新的校验和：

az ml component create --file <component-yaml> --resource-group <resource-group> --workspace-name <workspace-name>

有关更多数据访问故障排除，请参阅排查数据访问错误。

后续步骤

使用基于标识的访问创建数据存储

提交训练作业

Last updated on 2026-04-07

在 Azure 机器学习和其他服务之间设置身份验证

先决条件

按场景划分的 RBAC 角色

选择身份验证方法

局限性

验证设置

工作区标识类型

用户分配的托管标识

工作区

查找用户分配的托管标识资源 ID

若要使用多个用户分配的标识创建工作区，请使用以下方法之一：

若要更新工作区的用户分配标识，包括添加新标识或删除现有工作区，请使用以下方法之一：

除了系统分配的标识之外，还向工作区添加用户分配的托管标识

共享资源的数据隔离

启用数据隔离的影响

按工作区类型的默认行为

何时启用数据隔离

创建工作区时启用数据隔离

计算群集

Kubernetes 群集计算

数据存储

访问存储服务

使用托管标识访问计算群集上训练作业的数据

使用用户标识访问计算群集上训练作业的数据

使用虚拟网络

方案：没有管理员用户的 Azure 容器注册表

使用自动创建的 ACR 实例的 Azure 机器学习

自带 ACR

使用托管标识创建计算以访问用于训练的 Docker 映像

使用 Docker 映像进行推理

方案：使用专用 Azure 容器注册表

Troubleshooting

身份无权访问存储

训练作业中令牌检索失败

存储防火墙阻止访问

ACR 映像拉取失败

用户身份验证在工作中失败

后续步骤

相关内容

其他资源