配置 Azure HPC VM 映像

虚拟机 (VM) 映像是虚拟机操作系统、软件、配置和在特定时间点存储的数据的快照。 这是一个有价值的资产,封装了支持虚拟机运行最终用户作业所需的大部分内容。

在 HPC 环境的上下文中,VM 映像应具有或可能具有对驱动程序(例如 IB、GPU)、MPI 库(例如 mpich、intel-mpi、pmix)和其他 HPC 相关软件(例如 CUDA、NCCL、编译器、运行状况检查器)的支持。

定义 VM 映像需求

  • 库、中间件、驱动程序:

    • 了解 HPC 应用程序所需的主要库(例如 MPI 风格),并最终了解中间件(例如 Slurm/PBS/LFS)。 例如,支持 GPU 的驱动程序也可以放置在映像中。
  • 实用工具和配置:

    • 大多数用户使用的小型实用工具(例如运行状况检查)或配置(例如 ulimit)。

工具和服务

Azure HPC 映像:

  • Azure HPC 映像可供使用,其中包含多个与 HPC 设置相关的包。
  • Azure HPC 映像同时包含 Ubuntu 和 AlmaLinux Linux 分发版。

HPC 直接迁移体系结构中适用于 HPC 映像的最佳做法

  • 利用 Azure HPC 映像:

    • 这些映像经过广泛测试,以在 Azure SKU 和 Azure HPC 系统中运行。
  • 自定义映像和其他 Linux 分发版:

    • 如果需要创建自定义映像,建议尽量使用 Azure HPC 映像 GitHub 存储库。 它包含用于创建 Azure HPC 映像的所有脚本。

设置和部署的步骤示例

本部分概述了如何通过 Azure 门户使用 Azure HPC 映像部署 VM。

  1. 转到 Azure 门户并选择 HPC VM 映像以创建 VM:

    • 选择 VM 映像:
      • 在 Azure 门户中导航,以按照标准 VM 预配步骤创建 VM。
      • 选择 VM 映像(从市场)时,请查找“AlmaLinux HPC”或“基于 Ubuntu 的 HPC 和 AI”
      • 填写所有字段(包括网络、磁盘、管理等)
      • 预配 VM
      • 定义分区/队列、Azure SKU、计算节点主机名和其他参数。
  2. 测试 VM:

    • 通过 SSH 登录到 VM:

      • 在这里,可以使用操作系统 ssh 工具,或转到“VM 访问”选项卡,选择通过 Bastion 进行访问(具体取决于网络设置)
    • 请参阅一些与 HPC 相关的工具:

      • 可以通过以下命令观察 Azure HPC 映像的运行,该命令列出了可用的模块,包括各种 mpi 实现
      module av
      
      • 要加载 openmpi,请:
      module load mpi/openmpi
      which mpirun
      
      • 可以在 /opt/ 目录中查找 HPC 工具和库。

资源

  • Azure HPC SKU 和支持的映像:产品网站
  • Azure HPC 映像概述:产品网站
  • Azure HPC 镜像发布说明(包含软件 + 软件版本):GitHub
  • Azure HPC 映像安装脚本:GitHub
  • 图像创建(常规用途):产品网站