创建 Azure 机器学习计算群集

Artículo
13/09/2024

适用范围：Azure CLI ml 扩展 v2（最新版）Python SDK azure-ai-ml v2（最新版）

本文介绍如何在 Azure 机器学习工作区中创建和管理计算群集。

可以使用 Azure 机器学习计算群集在云中的 CPU 或 GPU 计算节点群集之间分配训练或批量推理过程。有关包括 GPU 的 VM 大小的详细信息，请参阅 GPU 优化的虚拟机大小。

了解如何：

创建计算群集。
使用低优先级 VM 降低计算群集成本。
为群集设置托管标识。

Nota

使用无服务器计算将计算生命周期管理转移到 Azure 机器学习，而不是创建计算群集。

先决条件

Azure 机器学习工作区。有关详细信息，请参阅管理 Azure 机器学习工作区。

根据首选的计算群集创建方法，为其余先决条件选择相应的选项卡。

如果未在计算实例上运行代码，请安装 Azure 机器学习 Python SDK。此 SDK 已安装在计算实例上。
附加到 Python 脚本中的工作区：

运行此代码来连接到 Azure 机器学习工作区。

替换以下代码中的订阅 ID、资源组名称和工作区名称。若要查找这些值：
1. 登录到 Azure 机器学习工作室。
2. 打开要使用的工作区。
3. 在右上方的 Azure 机器学习工作室工具栏中，选择你的工作区名称。
4. 将工作区、资源组和订阅 ID 的值复制到代码中。
适用范围：Python SDK azure-ai-ml v2（最新版）
```
# Enter details of your AML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"
```
```
# get a handle to the workspace
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)
```
ml_client 是用于管理其他资源和作业的工作区处理程序。

如果未在计算实例上运行这些命令，请安装适用于机器学习服务 (v2) 的 Azure CLI 扩展。已在计算实例上安装此扩展。
对默认工作区和资源组进行身份验证并进行设置。使终端保持打开状态，以运行本文中的其余命令。
- 如果在使用计算实例，请运行以下命令：
```
az login --identity
# next line needed only if you have multiple subscriptions:
az account set --subscription "<SUBSCRIPTION-NAME>" # replace with your subscription name
az configure --defaults group=$CI_RESOURCE_GROUP workspace=$CI_WORKSPACE
```
- 如果在本地运行命令，请省略 --identity 并按照身份验证说明进行操作。此外，将 $CI_RESOURCE_GROUP 和 $CI_WORKSPACE 替换为你自己的值。

什么是计算群集？

Azure 机器学习计算群集是一个托管的计算基础结构，可让你轻松创建单节点或多节点计算。计算群集是可以与工作区中的其他用户共享的资源。提交作业时，计算会自动扩展，并可以放入 Azure 虚拟网络。计算群集也支持在虚拟网络中部署非公共 IP。计算在容器化环境中执行，将模型的依赖项打包在 Docker 容器中。

计算群集可以在托管的虚拟网络或 Azure 虚拟网络中安全地运行作业，无需企业打开 SSH 端口。作业在容器化环境中执行，并将模型依赖项打包到 Docker 容器中。

限制

可以在你的工作区所在区域以外的区域中创建计算集群。此功能只可用于计算群集，不可用于计算实例。

Advertencia

使用工作区或数据存储所在区域以外的区域中的计算群集时，可能会出现网络延迟加重和数据传输成本增加的情况。在创建群集以及在该群集上运行作业时，可能会存在这样的延迟和成本。
Azure 机器学习计算对可以分配的核心数等属性实施默认限制。有关详细信息，请参阅管理和请求 Azure 资源的配额。
在 Azure 中可以对资源进行锁定，以便其成为只读资源或避免将其删除。 请勿将资源锁应用于包含工作区的资源组。将锁应用于包含工作区的资源组会阻止对 Azure 机器学习计算群集进行缩放操作。若要详细了解如何锁定资源，请参阅锁定资源以防止意外更改。

创建

时间估算：大约需要五分钟。

Nota

如果使用无服务器计算，则不需要创建计算群集。

可在不同的运行中重复使用 Azure 机器学习计算。计算可与工作区中的其他用户共享，并在每次运行之后保留，它会根据提交的运行数以及群集上设置的 max_nodes 来自动纵向扩展或缩减节点。 min_nodes 设置可控制可用节点数的下限。

每个区域每个 VM 系列配额和创建计算群集时应用的区域总配额的专用内核是统一的，并与 Azure 机器学习训练计算实例配额共享。

Importante

若要避免在没有作业运行时产生费用，请将最小节点数设置为 0。此设置允许 Azure 机器学习在不使用节点时取消分配这些节点。值大于 0 将使该数量的节点保持运行状态，即使它们未被使用也是如此。

计算在不使用时自动缩减为零个节点。按需创建专用 VM 来运行作业。

使用以下示例创建计算群集：

若要在 Python 中创建持久性 Azure 机器学习计算资源，请指定 size 和 max_instances 属性。然后，Azure 机器学习将对其他属性使用智能默认值。

size：Azure 机器学习计算创建的 VM 系列节点。
max_instances：在 Azure 机器学习计算中运行作业时，自动纵向扩展到的最大节点数。

适用范围：Python SDK azure-ai-ml v2（最新版）

from azure.ai.ml.entities import AmlCompute

cluster_basic = AmlCompute(
    name="basic-example",
    type="amlcompute",
    size="STANDARD_DS3_v2",
    location="chinaeast",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
)
ml_client.begin_create_or_update(cluster_basic)

还可以在创建 Azure 机器学习计算时配置多个高级属性。使用这些属性可以创建固定大小的持久性群集，或者在订阅中的现有 Azure 虚拟网络内创建持久性群集。有关详细信息，请参阅 AmlCompute 类。

Advertencia

在设置 location 参数时，如果它是你的工作区或数据存储以外的区域，则可能会出现网络延迟加重和数据传输成本增加的情况。在创建群集以及在该群集上运行作业时，可能会存在这样的延迟和成本。

适用于：Azure CLI ml 扩展 v2（当前）

az ml compute create -f create-cluster.yml

文件 create-cluster.yml 的位置：

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: location-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
location: chinaeast2

Advertencia

使用工作区或数据存储所在区域以外的区域中的计算群集时，可能会出现网络延迟加重和数据传输成本增加的情况。在创建群集以及在该群集上运行作业时，可能会存在这样的延迟和成本。

为训练、批量推理或强化学习工作负载创建单节点或多节点计算群集。

导航到 Azure 机器学习工作室。
在“管理”下，选择“计算” 。
如果没有计算资源，请在页面中间选择“新建”。
如果看到计算资源的列表，请选择列表上方的“+ 新建”。
在顶部的选项卡中，选择“计算群集”。

按如下所示填写表单：

字段	说明
位置	将会在其中创建计算群集的 Azure 区域。在默认情况下，此位置与工作区的位置相同。如果在默认区域没有足够的配额，请转到不同区域，获得更多选项。在使用工作区或数据存储以外的区域时，可能会出现网络延迟加重和数据传输成本增加的情况。在创建群集以及在该群集上运行作业时，可能会存在这样的延迟和成本。
虚拟机类型	选择“CPU”或“GPU”。此类型在创建后无法更改。
虚拟机优先级	选择“专用”或“低优先级”。低优先级虚拟机的费用更低，但不能保证计算节点。其他作业可能会抢先于你的作业执行。
虚拟机大小	在你的区域中，支持的虚拟机大小可能会受到限制。请查看可用性列表

选择“下一步”，进入“高级设置”，按如下所示填写窗体：

字段	说明
计算名称	* 名称是必须提供的，且长度必须介于 3 到 24 个字符之间。 * 有效字符为大小写字母、数字和 - 字符。 * 名称必须以字母开头。 * 名称必须在 Azure 区域内的全部现有计算中都是唯一的。如果选择的名称不是唯一的，你将看到警报。 * 如果在名称中使用了 - 字符，在此字符之后必须至少跟有一个字母。
最小节点数	需要预配的节点的最小数量。如果需要专用数量的节点，请在此处设置所需计数。将最小值设置为 0 可节省费用，这样在群集空闲时就不需要为任何节点付费。
最大节点数	需要预配的节点的最大数量。提交作业时，计算将自动缩放到此节点计数的最大值。
缩减前的空闲秒数	将群集规模缩减到最小节点数之前等待的空闲时间。
启用 SSH 访问	使用为计算实例启用 SSH 访问的相同说明。
高级设置	可选。配置网络设置。 * 如果 Azure 虚拟网络，请指定资源组、虚拟网络和子网，以在网络中创建计算实例。有关详细信息，请参阅网络要求。 * 如果为 Azure 机器学习托管网络，则计算群集自动位于托管网络中。有关详细信息，请参阅使用托管网络进行托管计算。 * 没有公共 IP 配置计算群集在网络中时是否具有公共 IP 地址。 * 分配托管标识以授予对资源的访问权限。

选择创建。

启用 SSH 访问

默认情况下会禁用 SSH 访问。 SSH 访问在创建后无法更改。如果计划使用 VS Code Remote 以交互式方式进行调试，请确保启用访问权限。

选择“下一步: 高级设置”后：

开启“启用 SSH 访问”。
在“SSH 公钥源”中，从下拉列表中选择其中一个选项：
- 如果生成新密钥对：
  1. 在“密钥对名称”中输入密钥的名称。
  2. 选择“创建”。
  3. 选择“下载私钥并创建计算”。密钥通常下载到“下载”文件夹中。
- 如果选择“使用存储在 Azure 中的现有公钥”，搜索并选择“存储密钥”中的密钥。
- 如果选择“使用现有公钥”，请以单行格式（以“ssh-rsa”开头）或多行 PEM 格式提供 RSA 公钥。可以在 Linux 和 OS X 上使用 ssh-keygen 生成 SSH 密钥，或在 Windows 上使用 PuTTYGen 生成这些密钥。

使用 SSH 访问进行连接

创建启用了 SSH 访问的计算后，请使用以下步骤进行访问。

在工作区资源中查找计算：
1. 在左侧选择“计算”。
2. 使用顶部的选项卡选择“计算实例”或“计算群集”，以查找计算机。
在资源列表中选择计算机名称。
查找连接字符串：
- 对于“计算实例”，选择“详细信息”部分顶部的“连接” 。
- 对于“计算群集”，选择顶部的“节点”，然后在表中为节点选择“连接字符串” 。
复制该连接字符串。
对于 Windows，打开 PowerShell 或命令提示符：
1. 转到存储密钥的目录或文件夹
2. 将 -i 标志添加到连接字符串，以查找私钥并指向其存储位置：
  
  ssh -i <keyname.pem> azureuser@... (rest of connection string)
对于 Linux 用户，请按照为 Azure 中的 Linux VM 创建和使用 SSH 密钥对中的步骤进行操作
对于 SCP，请使用：

scp -i key.pem -P {port} {fileToCopyFromLocal } azureuser@yourComputeInstancePublicIP:~/{destination}

通过使用低优先级 VM 降低计算群集成本

还可以选择使用低优先级 VM 来运行部分或所有工作负载。这些 VM 的可用性未没有保证，在使用时可能会被占用。必须重启已占用的作业。

通过使用 Azure 低优先级虚拟机，可以利用 Azure 未使用的容量，从而大幅节省成本。每当 Azure 需要回收容量时，Azure 基础结构就会逐出 Azure 低优先级虚拟机。因此，Azure 低优先级虚拟机非常适合可以处理中断的工作负载。可用容量可能因大小、区域、一天内的时间等因素而异。部署 Azure 低优先级虚拟机时，如果有可用的容量，则 Azure 会分配 VM，但这些 VM 将没有 SLA 保障。 Azure 低优先级虚拟机不提供高可用性保证。每当 Azure 需要回收容量时，Azure 基础结构就会逐出 Azure 低优先级虚拟机。

请使用以下任一方法指定低优先级 VM：

适用范围：Python SDK azure-ai-ml v2（最新版）

from azure.ai.ml.entities import AmlCompute

cluster_low_pri = AmlCompute(
    name="low-pri-example",
    size="STANDARD_DS3_v2",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
    tier="low_priority",
)
ml_client.begin_create_or_update(cluster_low_pri)

适用于：Azure CLI ml 扩展 v2（当前）

设置 vm-priority：

az ml compute create -f create-cluster.yml

文件 create-cluster.yml 的位置：

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: low-pri-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
tier: low_priority

Nota

如果使用无服务器计算，则不需要创建计算群集。要指定低优先级无服务器计算，请在队列设置中将 job_tier 设置为 Spot。

删除

当未使用时，计算群集会纵向缩减到零个节点，但未预配的节点会增加配额使用量。删除计算群集会从工作区中删除计算目标，并释放配额。

适用范围：Python SDK azure-ai-ml v2（最新版）

这会删除本文前面的create_basic对象中创建的基本计算群集。

from azure.ai.ml.entities import AmlCompute

ml_client.compute.begin_delete(cluster_basic.name).wait()

适用于：Azure CLI ml 扩展 v2（当前）

这会删除名为basic-example的计算群集。

az ml compute delete --name basic-example

设置托管标识

若要了解如何使用计算群集配置托管标识，请参阅在 Azure 机器学习和其他服务之间设置身份验证。

疑难解答

如果用户在 GA 发布之前已通过 Azure 门户创建了自己的 Azure 机器学习工作区，则他们可能无法在该工作区中创建 AmlCompute。可对服务提出支持请求，也可通过门户或 SDK 创建新的工作区以立即解除锁定。

Importante

如果你的计算实例或计算群集基于上述任何系列，请使用另一个 VM 大小重新创建。

以下系列已于 2024 年 8 月 31 日停用：

Azure Av1 系列

调整大小时停滞

如果 Azure 机器学习计算群集在根据节点状态重设大小时卡住 (0 -> 0)，可能是 Azure 资源锁导致的。

Azure 允许你在资源上放置锁，这样这些资源就无法被删除，或者会处于只读状态。 锁定资源可能会导致意外结果。 某些操作看似不会修改资源，但实际上需要执行被锁阻止的操作。

借助 Azure 机器学习，将删除锁应用于工作区的资源组会阻止对 Azure ML 计算群集进行缩放操作。若要解决此问题，我们建议删除资源组中的锁，并将锁应用于组中的各个项。

Importante

不要将锁应用于以下资源：

资源名称	资源类型
`<GUID>-azurebatch-cloudservicenetworksecurityggroup`	网络安全组
`<GUID>-azurebatch-cloudservicepublicip`	公共 IP 地址
`<GUID>-azurebatch-cloudserviceloadbalancer`	负载均衡器

这些资源用于与计算群集进行通信，并在计算群集上执行缩放等操作。删除这些资源中的资源锁便应该会允许对你的计算群集执行自动缩放。

若要详细了解资源锁定，请参阅锁定资源以防止意外更改。

下一步

使用计算群集执行以下操作：

Festival de habilidades IA

Compartir a través de

先决条件

什么是计算群集？

限制

创建

启用 SSH 访问

使用 SSH 访问进行连接

通过使用低优先级 VM 降低计算群集成本

删除

设置托管标识

疑难解答

调整大小时停滞

下一步

Compartir a través de

创建 Azure 机器学习计算群集

先决条件

什么是计算群集？

限制

创建

通过使用低优先级 VM 降低计算群集成本

删除

设置托管标识

疑难解答

调整大小时停滞

下一步

Recursos adicionales