在运行 Windows 的 N 系列 VM 上安装 NVIDIA GPU 驱动程序

项目
08/24/2023

适用于：✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集

若要利用 NVIDIA GPU 支持的 Azure N 系列 VM 的 GPU 功能，必须安装 NVIDIA GPU 驱动程序。

如果选择手动安装 NVIDIA GPU 驱动程序，请参阅本文，其中提供了受支持的操作系统、驱动程序以及安装和验证步骤。针对 Linux VM 也提供了驱动程序手动安装信息。

有关基本规范、存储容量和磁盘详细信息，请参阅 GPU Windows VM 大小。

支持的操作系统和驱动程序

NVIDIA Tesla (CUDA) 驱动程序

下表中列出的操作系统测试适用于 NCv3 系列 VM 和 NCasT4_v3 VM 的 NVIDIA Tesla (CUDA) 驱动程序。 CUDA 驱动程序是通用的，不特定于 Azure。有关最新驱动程序，请访问 NVIDIA 网站。

提示

作为一种在 Windows Server VM 上手动安装 CUDA 驱动程序的替代方法，可以部署 Azure 数据科学虚拟机映像。用于 Windows Server 2016 的 DSVM 版本预安装 NVIDIA CUDA 驱动程序、CUDA 深度神经网络库和其他工具。

操作系统	驱动程序
Windows Server 2019	451.82 (.exe)
Windows Server 2016	451.82 (.exe)

驱动程序安装

通过远程桌面连接到每个 N 系列 VM。
下载、解压缩并安装 Windows 操作系统支持的驱动程序。

安装 CUDA 驱动程序后，不需要重启。

验证驱动程序安装

如果已安装 CUDA 驱动程序，则 Nvidia 控制面板将不可见。

可以在设备管理器中验证驱动程序安装。以下示例展示了如何在 Azure NC VM 上成功配置 Tesla K80 卡。

GPU driver properties

若要查询 GPU 设备状态，请运行与驱动程序一起安装的 nvidia-smi 命令行实用工具。

打开命令提示符，并更改为 C:\Program Files\NVIDIA Corporation\NVSMI 目录。
运行 nvidia-smi。如果安装了驱动程序，将看到如下输出。除非当前正在 VM 上运行 GPU 工作负荷，否则“GPU-Util”将显示“0%” 。驱动程序版本和 GPU 详细信息可能与所示的内容不同。

NVIDIA device status

RDMA 网络连接

可以在同一可用性集或虚拟机规模集的单个放置组中部署的支持 RDMA 的 N 系列 VM（例如 NC24r）上启用 RDMA 网络连接。必须添加 HpcVmDrivers 扩展才能安装用来启用 RDMA 连接的 Windows 网络设备驱动程序。若要向支持 RDMA 的 N 系列 VM 添加 VM 扩展，请使用 Azure 资源管理器的 Azure PowerShell cmdlet。

若要在 China North 2 区域中名为 myVM 的支持 RDMA 的现有 VM 上安装最新版本 1.1 HpcVMDrivers 扩展，请执行以下命令：

Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "chinanorth2" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"

有关详细信息，请参阅适用于 Windows 的虚拟机扩展和功能。

对于使用 Microsoft MPI 或 Intel MPI 5.x 运行的应用程序，RDMA 网络支持消息传递接口 (MPI) 流量。

后续步骤

为 NVIDIA Tesla GPU 构建 GPU 加速应用程序的开发人员也可下载并安装最新的 CUDA 工具包。有关详细信息，请参阅 CUDA 安装指南。