在 Azure 上选择和预配 HPC 和 GPU 计算节点

在 HPC 云环境中管理计算节点时,需要仔细考虑虚拟机 (VM) 类型、映像和配额限制。 在云中测试关键本地工作负载有助于评估不同 VM SKU 的成本优势,从而随时间推移做出更明智的硬件决策。 Azure 为 Ubuntu 和 Alma Linux 提供了预配置的 HPC 映像(其中包括必要的驱动程序和库),这可以简化部署过程。 你还可以使用 Azure HPC 映像存储库中的可用资源创建自定义映像。 此外,请务必仔细规划资源使用情况,并咨询 Azure 以避免配额限制,尤其是在跨多个区域缩放时。

本部分提供了有关如何在云中为 HPC 工作负载高效选择和管理计算资源的指导。

虚拟机 (VM) 类型 (SKU)

建议在云中测试一些关键的本地工作负载,以便了解不同 SKU 的成本优势。 在云中,硬件选项允许随着时间的推移对决策进行改进。

VM 映像

Azure 为 ubuntu 和 alma linux 提供 HPC 映像,其中包含各种驱动程序、库和一些与 HPC 相关的配置。 建议尽可能多地使用这些映像。 但是,如果需要自定义映像,可以从 Azure HPC 映像 GitHub 存储库中了解这些映像的构建方式,并使用其中的脚本。

Quota

如果需要大量的资源,最好进行适当规划并与 Azure 团队进行讨论,以尽量降低达到配额限制的可能性。 根据具体情况,尽可能探索多个区域会很有帮助。

有关详细信息,请查看以下组件的说明:

此处介绍了每个组件。 每个部分均包括以下内容:

  • 对组件的概述
  • 对组件的要求是什么(即我们需要从组件中获得什么)
  • 可用的工具和服务
  • HPC 直接迁移背景下的组件最佳做法
  • 快速入门设置示例

快速入门的目标是让用户了解如何开始使用组件。 随着 HPC 云部署的发展成熟,预计可通过基础结构即软件工具(例如 Terraform 或 Bicep)来自动使用组件。