在运行 Windows 的 N 系列 VM 上安装 NVIDIA GPU 驱动程序
适用于:✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集
若要利用 NVIDIA GPU 支持的 Azure N 系列 VM 的 GPU 功能,必须安装 NVIDIA GPU 驱动程序。
如果选择手动安装 NVIDIA GPU 驱动程序,请参阅本文,其中提供了受支持的操作系统、驱动程序以及安装和验证步骤。 针对 Linux VM 也提供了驱动程序手动安装信息。
有关基本规范、存储容量和磁盘详细信息,请参阅 GPU Windows VM 大小。
支持的操作系统和驱动程序
NVIDIA Tesla (CUDA) 驱动程序
下表中列出的操作系统测试适用于 NCv3 系列 VM 和 NCasT4_v3 VM 的 NVIDIA Tesla (CUDA) 驱动程序。 CUDA 驱动程序是通用的,不特定于 Azure。 有关最新驱动程序,请访问 NVIDIA 网站。
提示
作为一种在 Windows Server VM 上手动安装 CUDA 驱动程序的替代方法,可以部署 Azure 数据科学虚拟机映像。 用于 Windows Server 2016 的 DSVM 版本预安装 NVIDIA CUDA 驱动程序、CUDA 深度神经网络库和其他工具。
操作系统 | 驱动程序 |
---|---|
Windows Server 2019 | 451.82 (.exe) |
Windows Server 2016 | 451.82 (.exe) |
驱动程序安装
通过远程桌面连接到每个 N 系列 VM。
下载、解压缩并安装 Windows 操作系统支持的驱动程序。
安装 CUDA 驱动程序后,不需要重启。
验证驱动程序安装
如果已安装 CUDA 驱动程序,则 Nvidia 控制面板将不可见。
可以在设备管理器中验证驱动程序安装。 以下示例展示了如何在 Azure NC VM 上成功配置 Tesla K80 卡。
若要查询 GPU 设备状态,请运行与驱动程序一起安装的 nvidia-smi 命令行实用工具。
打开命令提示符,并更改为 C:\Program Files\NVIDIA Corporation\NVSMI 目录。
运行
nvidia-smi
。 如果安装了驱动程序,将看到如下输出。 除非当前正在 VM 上运行 GPU 工作负荷,否则“GPU-Util”将显示“0%” 。 驱动程序版本和 GPU 详细信息可能与所示的内容不同。
RDMA 网络连接
可以在同一可用性集或虚拟机规模集的单个放置组中部署的支持 RDMA 的 N 系列 VM(例如 NC24r)上启用 RDMA 网络连接。 必须添加 HpcVmDrivers 扩展才能安装用来启用 RDMA 连接的 Windows 网络设备驱动程序。 若要向支持 RDMA 的 N 系列 VM 添加 VM 扩展,请使用 Azure 资源管理器的 Azure PowerShell cmdlet。
若要在 China North 2
区域中名为 myVM 的支持 RDMA 的现有 VM 上安装最新版本 1.1 HpcVMDrivers 扩展,请执行以下命令:
Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "chinanorth2" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"
有关详细信息,请参阅适用于 Windows 的虚拟机扩展和功能。
对于使用 Microsoft MPI 或 Intel MPI 5.x 运行的应用程序,RDMA 网络支持消息传递接口 (MPI) 流量。