在运行 Windows 的 N 系列 VM 上安装 NVIDIA GPU 驱动程序

适用于:✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集

若要利用 NVIDIA GPU 支持的 Azure N 系列 VM 的 GPU 功能,必须安装 NVIDIA GPU 驱动程序。

如果选择手动安装 NVIDIA GPU 驱动程序,请参阅本文,其中提供了受支持的操作系统、驱动程序以及安装和验证步骤。 针对 Linux VM 也提供了驱动程序手动安装信息。

有关基本规范、存储容量和磁盘详细信息,请参阅 GPU Windows VM 大小

支持的操作系统和驱动程序

NVIDIA Tesla (CUDA) 驱动程序

下表中列出的操作系统测试适用于 NCv3 系列 VM 和 NCasT4_v3 VM 的 NVIDIA Tesla (CUDA) 驱动程序。 CUDA 驱动程序是通用的,不特定于 Azure。 有关最新驱动程序,请访问 NVIDIA 网站。

提示

作为一种在 Windows Server VM 上手动安装 CUDA 驱动程序的替代方法,可以部署 Azure 数据科学虚拟机映像。 用于 Windows Server 2016 的 DSVM 版本预安装 NVIDIA CUDA 驱动程序、CUDA 深度神经网络库和其他工具。

操作系统 驱动程序
Windows Server 2019 451.82 (.exe)
Windows Server 2016 451.82 (.exe)

驱动程序安装

  1. 通过远程桌面连接到每个 N 系列 VM。

  2. 下载、解压缩并安装 Windows 操作系统支持的驱动程序。

安装 CUDA 驱动程序后,不需要重启。

验证驱动程序安装

如果已安装 CUDA 驱动程序,则 Nvidia 控制面板将不可见。

可以在设备管理器中验证驱动程序安装。 以下示例展示了如何在 Azure NC VM 上成功配置 Tesla K80 卡。

GPU driver properties

若要查询 GPU 设备状态,请运行与驱动程序一起安装的 nvidia-smi 命令行实用工具。

  1. 打开命令提示符,并更改为 C:\Program Files\NVIDIA Corporation\NVSMI 目录。

  2. 运行 nvidia-smi。 如果安装了驱动程序,将看到如下输出。 除非当前正在 VM 上运行 GPU 工作负荷,否则“GPU-Util”将显示“0%” 。 驱动程序版本和 GPU 详细信息可能与所示的内容不同。

NVIDIA device status

RDMA 网络连接

可以在同一可用性集或虚拟机规模集的单个放置组中部署的支持 RDMA 的 N 系列 VM(例如 NC24r)上启用 RDMA 网络连接。 必须添加 HpcVmDrivers 扩展才能安装用来启用 RDMA 连接的 Windows 网络设备驱动程序。 若要向支持 RDMA 的 N 系列 VM 添加 VM 扩展,请使用 Azure 资源管理器的 Azure PowerShell cmdlet。

若要在 China North 2 区域中名为 myVM 的支持 RDMA 的现有 VM 上安装最新版本 1.1 HpcVMDrivers 扩展,请执行以下命令:

Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "chinanorth2" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"

有关详细信息,请参阅适用于 Windows 的虚拟机扩展和功能

对于使用 Microsoft MPI 或 Intel MPI 5.x 运行的应用程序,RDMA 网络支持消息传递接口 (MPI) 流量。

后续步骤

  • 为 NVIDIA Tesla GPU 构建 GPU 加速应用程序的开发人员也可下载并安装最新的 CUDA 工具包。 有关详细信息,请参阅 CUDA 安装指南