适用于:✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集
若要利用 NVIDIA GPU 支持的 Azure N 系列 VM 的 GPU 功能,必须安装 NVIDIA GPU 驱动程序。
如果选择手动安装 NVIDIA GPU 驱动程序,请参阅本文,其中提供了受支持的操作系统、驱动程序以及安装和验证步骤。 针对 Linux VM 也提供了驱动程序手动安装信息。
有关基本规范、存储容量和磁盘详细信息,请参阅 GPU Windows VM 大小。
注意
Azure NVads A10 v5 VM 仅支持 vGPU 16.x(536.25) 或更高版本的驱动程序。
适用于所有 NC* 和 ND 系列 VM 的 NVIDIA Tesla (CUDA) 驱动程序都是通用的(适用于 NV 系列的为可选),而不是特定于 Azure 的。 有关最新驱动程序,请访问 NVIDIA 网站。
提示
作为一种在 Windows Server VM 上手动安装 CUDA 驱动程序的替代方法,可以部署 Azure 数据科学虚拟机映像。 用于 Windows Server 2016 的 DSVM 版本预安装 NVIDIA CUDA 驱动程序、CUDA 深度神经网络库和其他工具。
注意
对于 Azure NVads A10 v5 VM,建议客户始终使用最新版本的驱动程序。 最新的 NVIDIA 主要驱动程序分支 (n) 仅与上一个主要分支 (n-1) 向后兼容。 例如,vGPU 17.x 仅与 vGPU 16.x 向后兼容。 最新的驱动分支发布到 Azure 主机时,任何仍运行 n-2 或更低版本的 VM 可能会出现驱动程序故障。
Windows server 2019 支持仅提供到 vGPU 16.x。
Microsoft 为用作虚拟工作站或用于虚拟应用程序的 NVads A10 v5 系列 VM 重新分发 NVIDIA GRID 驱动程序安装程序。 请仅在下表所列操作系统上的 Azure NV 系列 VM 上安装这些 GRID 驱动程序。 这些驱动程序包括 Azure 中 GRID Virtual GPU Software 的许可。 不需要设置 NVIDIA vGPU 软件许可证服务器。
Azure 重新分发的 GRID 驱动程序不适用于非 NV 系列 VM,如 NCv3 VM。 NCas_T4_V3 VM 系列例外,其中 GRID 驱动程序会启用类似于 NV 系列的图形功能。
Nvidia 扩展始终安装最新的驱动程序。
适用于 Windows 11(直至版本 24H2(含)),Windows 10(直至版本 22H2(含))、Server 2022:
- GRID 17.5 (553.62) (.exe)
提供了以下指向以前版本的链接,以支持对旧驱动程序版本的依赖关系。
对于 Windows Server 2016 版本 1607 或 1709:
- GRID 14.1 (512.78) (.exe) 是支持的最低版本 NVIDIA 驱动程序。 较新的 15.x 及更高版本不支持 Windows Server 2016。
对于 Windows Server 2012 R2:
- GRID 13.1 (472.39) (.exe)
- GRID 13 (471.68) (.exe)
有关指向所有以前的 Nvidia GRID 驱动程序版本的链接,请访问 GitHub。
通过远程桌面连接到每个 N 系列 VM。
下载、解压缩并安装 Windows 操作系统支持的驱动程序。
安装 CUDA 驱动程序后,不需要重启。
如果已安装 CUDA 驱动程序,则 Nvidia 控制面板将不可见。
可以在设备管理器中验证驱动程序安装。 以下示例展示了如何在 Azure NC VM 上成功配置 Tesla K80 卡。
若要查询 GPU 设备状态,请运行与驱动程序一起安装的 nvidia-smi 命令行实用工具。
打开命令提示符,并更改为 C:\Program Files\NVIDIA Corporation\NVSMI 目录。
运行
nvidia-smi
。 如果安装了驱动程序,将看到如下输出。 除非当前正在 VM 上运行 GPU 工作负载,否则“GPU-Util”会显示“0%”。 驱动程序版本和 GPU 详细信息可能与所示的内容不同。
可以在支持 RDMA 的 N 系列 VM(例如 NC24r)上启用 RDMA 网络连接,这些 VM 可以部署在同一可用性集或虚拟机规模集的单个放置组中。 必须添加 HpcVmDrivers 扩展才能安装用来启用 RDMA 连接的 Windows 网络设备驱动程序。 若要向支持 RDMA 的 N 系列 VM 添加 VM 扩展,请使用 Azure 资源管理器的 Azure PowerShell cmdlet。
若要在 China North 2
区域中名为 myVM 的支持 RDMA 的现有 VM 上安装最新版本 1.1 HpcVMDrivers 扩展,请执行以下命令:
Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "chinanorth2" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"
有关详细信息,请参阅适用于 Windows 的虚拟机扩展和功能。
对于使用 Microsoft MPI 或 Intel MPI 5.x 运行的应用程序,RDMA 网络支持消息传递接口 (MPI) 流量。