在运行 Windows 的 N 系列 VM 上安装 NVIDIA GPU 驱动程序

适用于:✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集

若要利用 NVIDIA GPU 支持的 Azure N 系列 VM 的 GPU 功能,必须安装 NVIDIA GPU 驱动程序。

如果选择手动安装 NVIDIA GPU 驱动程序,请参阅本文,其中提供了受支持的操作系统、驱动程序以及安装和验证步骤。 针对 Linux VM 也提供了驱动程序手动安装信息。

有关基本规范、存储容量和磁盘详细信息,请参阅 GPU Windows VM 大小

支持的操作系统和驱动程序

NVIDIA Tesla (CUDA) 驱动程序

注意

Azure NVads A10 v5 VM 仅支持 vGPU 14.1(510.73) 或更高版本的驱动程序。

适用于所有 NC* 和 ND 系列 VM 的 NVIDIA Tesla (CUDA) 驱动程序都是通用的(适用于 NV 系列的为可选),而不是特定于 Azure 的。 有关最新驱动程序,请访问 NVIDIA 网站。

提示

作为一种在 Windows Server VM 上手动安装 CUDA 驱动程序的替代方法,可以部署 Azure 数据科学虚拟机映像。 用于 Windows Server 2016 的 DSVM 版本预安装 NVIDIA CUDA 驱动程序、CUDA 深度神经网络库和其他工具。

NVIDIA GRID 驱动程序

注意

对于 Azure NVads A10 v5 VM,建议客户始终使用最新版本的驱动程序。 最新的 NVIDIA 主要驱动程序分支 (n) 仅与上一个主要分支 (n-1) 向后兼容。 例如,vGPU 17.x 仅与 vGPU 16.x 向后兼容。 向 Azure 主机推出到最新的驱动器分支时,任何仍然运行 n-2 或更低版本的 VM 都可能会出现驱动程序故障。

从 vGPU 17.x 开始,将会停止 Windows Server 2016 支持。

Microsoft 为用作虚拟工作站或用于虚拟应用程序的 NVads A10 v5 系列 VM 重新分发 NVIDIA GRID 驱动程序安装程序。 请仅在下表所列操作系统上的 Azure NV 系列 VM 上安装这些 GRID 驱动程序。 这些驱动程序包括 Azure 中 GRID Virtual GPU Software 的许可。 不需要设置 NVIDIA vGPU 软件许可证服务器。

Azure 重新分发的 GRID 驱动程序不适用于非 NV 系列 VM,如 NCv3 VM。 NCas_T4_V3 VM 系列例外,其中 GRID 驱动程序会启用类似于 NV 系列的图形功能。

Nvidia 扩展始终安装最新的驱动程序。

对于 Windows 11 版本 23H2 及更低版本、Windows 10 版本 22H2 及更低版本、Server 2019/2022:

提供了以下指向以前版本的链接,以支持对旧驱动程序版本的依赖关系。

对于 Windows Server 2016 版本 1607 或 1709:

  • GRID 14.1 (512.78) (.exe) 是支持的最低版本 NVIDIA 驱动程序。 较新的 15.x 及更高版本不支持 Windows Server 2016。

对于 Windows Server 2012 R2:

注意

vGPU 15.1/15.2 安装程序进程对 ngx.download.nvidia.com 进行额外的远程调用。 这是行为意外更改,NVIDIA 默认从 vGPU 15.3 或更高版本开始禁用此功能。 同时,请在安装 vGPU 15.1/15.2 驱动程序之前更新以下 regkey。

禁用对 ngx 的远程调用。

[HKEY_LOCAL_MACHINE\SOFTWARE\NVIDIA Corporation\Global\NGXCore]

"EnableOTA"=dword:00000000

若要再次启用远程调用,请将设置更改为 1,或者直接删除 regkey。

有关指向所有以前的 Nvidia GRID 驱动程序版本的链接,请访问 GitHub

驱动程序安装

  1. 通过远程桌面连接到每个 N 系列 VM。

  2. 下载、解压缩并安装 Windows 操作系统支持的驱动程序。

安装 CUDA 驱动程序后,不需要重启。

验证驱动程序安装

如果已安装 CUDA 驱动程序,则 Nvidia 控制面板将不可见。

可以在设备管理器中验证驱动程序安装。 以下示例展示了如何在 Azure NC VM 上成功配置 Tesla K80 卡。

GPU 驱动程序属性

若要查询 GPU 设备状态,请运行与驱动程序一起安装的 nvidia-smi 命令行实用工具。

  1. 打开命令提示符,并更改为 C:\Program Files\NVIDIA Corporation\NVSMI 目录。

  2. 运行 nvidia-smi。 如果安装了驱动程序,将看到如下输出。 除非当前正在 VM 上运行 GPU 工作负荷,否则“GPU-Util”将显示“0%” 。 驱动程序版本和 GPU 详细信息可能与所示的内容不同。

NVIDIA 设备状态

RDMA 网络连接

可以在同一可用性集或虚拟机规模集的单个放置组中部署的支持 RDMA 的 N 系列 VM(例如 NC24r)上启用 RDMA 网络连接。 必须添加 HpcVmDrivers 扩展才能安装用来启用 RDMA 连接的 Windows 网络设备驱动程序。 若要向支持 RDMA 的 N 系列 VM 添加 VM 扩展,请使用 Azure 资源管理器的 Azure PowerShell cmdlet。

若要在 China North 2 区域中名为 myVM 的支持 RDMA 的现有 VM 上安装最新版本 1.1 HpcVMDrivers 扩展,请执行以下命令:

Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "chinanorth2" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"

有关详细信息,请参阅适用于 Windows 的虚拟机扩展和功能

对于使用 Microsoft MPI 或 Intel MPI 5.x 运行的应用程序,RDMA 网络支持消息传递接口 (MPI) 流量。

后续步骤

  • 为 NVIDIA Tesla GPU 构建 GPU 加速应用程序的开发人员也可下载并安装最新的 CUDA 工具包。 有关详细信息,请参阅 CUDA 安装指南