在已启用 InfiniBand 的 HB 系列和 N 系列 VM 上进行高性能计算

适用于:✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集 ✔️ 统一规模集

Azure 已启用 InfiniBand 的 H 系列和 N 系列 VM 旨在为各种实际 HPC 和 AI 工作负载提供领导级性能、消息传递接口(MPI)可伸缩性和成本效益。 这些高性能计算(HPC)优化 VM 用于解决科学和工程中计算最密集的问题,例如:流体动力学、地球建模、天气模拟等。

这些文章介绍如何在 Azure 上开始使用已启用 InfiniBand 的 H 系列和 N 系列 VM,以及如何在 VM 上优化 HPC 和 AI 工作负载的配置,以实现可伸缩性。

特性和功能

已启用 InfiniBand 的 HB 系列和 N 系列 VM 旨在为 HPC 工作负荷提供最佳 HPC 性能、MPI 可伸缩性和成本效益。 请参阅 HB 系列N 系列 VM,详细了解 VM 的特性和功能。

RDMA 和 InfiniBand

支持 RDMA的 HB 系列N 系列 VM 通过低延迟和高带宽 InfiniBand 网络进行通信。 通过此类互连的 RDMA 功能对于提高分布式节点 HPC 和 AI 工作负载的可伸缩性和性能至关重要。 已启用 InfiniBand 的 H 系列和 N 系列 VM 在非阻塞脂肪树中连接,其直径低,具有优化且一致的 RDMA 性能。 有关在已启用 InfiniBand 的 VM 上设置 InfiniBand 的详细信息,请参阅“ 启用 InfiniBand ”。

消息传递接口

启用 SR-IOV 功能的 HB 系列和 N 系列几乎支持所有 MPI 库和版本。 一些最常用的 MPI 库包括:Intel MPI、OpenMPI、HPC-X、MVAPICH2、MPICH、Platform MPI。 支持所有远程直接内存访问(RDMA)操作。 请参阅 “设置 MPI ”,详细了解如何安装各种支持的 MPI 库及其最佳配置。

开始

第一步是根据 VM 规范和 RDMA 功能选择最适合工作负荷的 HB 系列N 系列 VM 类型。 其次,通过启用 InfiniBand 来配置 VM。 有多种方法可以执行此操作,包括使用预装驱动程序的优化 VM 映像;有关详细信息,请参阅 Linux 优化启用 InfiniBand 。 第三,对于分布式节点工作负荷,正确选择和配置 MPI 至关重要。 有关详细信息,请参阅 “设置 MPI ”。 第四,为了获得性能和可伸缩性,请遵循特定于 VM 系列的指南(例如 HBv3 系列概述)以优化配置工作负荷。

后续步骤