高性能计算(HPC)工作负载最佳做法和存储选项指南

本指南提供了最佳实践、使用指南、存储解决方案的详细比较和技术规范,旨在为您的 Azure VM 上的 HPC 工作负载提供最佳适用的选择。 它包括性能指标、协议支持、成本层以及每种存储类型的用例对齐方式。 通常需要在针对成本优化和针对性能优化之间进行权衡。 如果工作负荷要求较低,可能不需要每项建议的优化。 评估这些建议时应考虑性能需求、成本和工作负荷模式。

概述

HPC 工作负荷的存储由核心存储组成,在某些情况下是加速器。 核心存储充当数据的永久主页。 它包含丰富的数据管理功能,具有持久性、可用、可缩放、弹性和安全性。 加速器通过提供高性能数据访问来增强核心存储。 可以按需预配加速器,并使计算工作负荷能够更快地访问数据。

存储服务比较

功能 标准 Blob 高级 Blob 高级文件
容量 20+ PiB 20+ PiB 100 TiB
带宽 15 GB/秒 15 GB/秒 10 GB/秒
IOPS 20,000 20,000 100,000
延迟 <100 毫秒 <10 毫秒 2-4 毫秒
协议 REST、HDFS、NFSv3、SFTP、FUSE、CSI 相同 REST、NFSv4.1、SMB3、CSI

初步考虑

如果从头开始,请参阅 “了解数据存储模型 ”以选择数据存储, 然后选择 Azure 存储服务Azure 存储简介 ,了解存储服务选项。

概览

从计划存储的数据量开始。 然后,考虑工作负荷使用的 CPU 核心数和文件大小。 这些因素可帮助你缩小最适合工作负荷的核心存储服务范围,以及是否使用加速器来增强性能。

配置 CPU 核心数 文件大小 核心存储建议 加速器建议
低于 50 TiB 不适用 不适用 Azure 文件 无加速器
50 TiB - 5,000 TiB 小于 500 不适用 Azure 文件 无加速器
50 TiB - 5,000 TiB 超过 500 1 MiB 和更大 Azure 标准 Blob。 它受所有加速器支持,支持许多协议,并且经济高效。 与您的现场或客户团队联系。
50 TiB - 5,000 TiB 超过 500 小于 1 MiB Azure 高级 BlobAzure 标准 Blob 与您的现场或客户团队联系。
50 TiB - 5,000 TiB 超过 500 小于 512 KiB Azure NetApp 文件 。 无加速器
超过 5,000 TiB 不适用 不适用 与您的现场或客户团队联系。

解决方案详细信息

如果在使用决策树后仍停滞在选项之间,下面是每个解决方案的更多详细信息:

解决方案 最佳性能和可扩展性 数据访问(访问协议) 计费模型 核心存储或加速器
Azure 标准 Blob * 适用于大型文件、带宽密集型工作负荷。
* 专为非结构化数据而设计。
* 支持高吞吐量工作负荷。
* 适用于传统(文件)和云原生(REST)HPC 应用。
* 易于访问、共享、管理数据集。
* 适用于所有加速器。
为使用的内容付费。 核心存储。
Azure Premium Blob * IOPS 和延迟优于标准 Blob。
* 适用于具有许多中型文件和混合文件大小的数据集。
适用于传统(文件)和云原生(REST)HPC 应用。
易于访问、共享、管理数据集。
适用于所有加速器。
为使用的内容付费。 核心存储。
Azure Premium Files 适用于较小规模(<1k 核)的容量和带宽。
* 这些 IOPS 和延迟适合中等大小文件(>512 KiB)。
* 提供高级(低延迟、高 IOPS)SKU。
* 通过 Azure 文件同步进行混合访问。
轻松与 Linux(NFS)和 Windows(SMB)集成,但不能同时使用 NFS+SMB 访问相同的数据。 为已配置的服务付费。 核心存储。
Azure NetApp Files * 容量和带宽适用于中型作业(1k-10k 核心)。
* IOPS 和延迟适用于小型文件数据集(<512 KiB)。
* 非常适合小型多文件工作负荷。
* 使用 ONTAP 技术的企业级文件存储。
* 标准层、高级层、超高层之间的性能动态调整。
易于与 Linux 和 Windows 集成,支持在使用 Linux 和 Windows 的工作流中进行多协议操作。 支付您配置的资源。 要么。

专用存储解决方案

Azure 提供一系列专为满足 HPC 工作负荷需求而定制的存储服务。 每个解决方案都针对不同的性能特征、访问模式和成本结构进行优化。 下面是最相关存储选项的综述,以及它们在 HPC 场景中最适合的用途。

存储解决方案 用例 性能基准 可伸缩性选项 与其他 Azure 服务集成
Azure Blob 存储 * 数据分析
* 内容分发
* 备份和存档
BlobFuse2 的吞吐量高达 30GB/秒 * 每个存储帐户的容量最多为 5 PiB
* 每个帐户的容器数不受限制
* Azure AI
* AKS
* Azure Data Lake
Azure 文件存储 * DevOps
*备份
* 远程工作
传输加密(适用于 NFS 共享的 TLS 1.3) * 文件共享空间最高为 100 TiB(标准)
* IOPS 最高为 100,000 (高级版)
* Azure 备份
* Azure Monitor
* Microsoft Entra ID

AI 和 RAG 工作负载存储要求

AI 和 RAG 工作负载的存储要求因不同阶段而异。 在训练阶段,必须具有较高的吞吐量、检查点、本地缓存以及加载大型模型的能力。 对于推理阶段,需要快速模型访问、低延迟和并发 GPU 访问。 在 RAG 阶段,需要安全的非结构化存储、矢量数据库集成、新鲜度和低延迟。


合作伙伴解决方案

合作伙伴 协议 Scale 独特功能
库穆洛 NFS、SMB、S3 200 PiB Azure 原生 SaaS、全局命名空间、经济高效
Dell APEX NFS、SMB、S3、HDFS 5.6 PiB 本地基础设施一致性、基于策略的分层
Nasuni NFS、SMB、S3 文件锁定,Blob 用作主层
Hammerspace NFS、SMB、S3、pNFS 全局命名空间,缓存替代项
Weka NFS、SMB、S3 14 EB 高 IOPS、低延迟、线性横向扩展
IBM SpectrumScale GPFS、NFS、SMB 完整 GPFS 堆栈
DDN Exascaler Lustre、NFS、SMB 拍字节 完整 DDN Lustre 堆栈

性能优化提示

  • 根据性能调整卷大小,而不仅仅是容量。
  • 使用可用性区域控制延迟。
  • 使用 ANF 中的大容量卷功能以实现最大化带宽。
  • 考虑缓存和分层策略,提高成本效益。

核心存储价格比较

价格从高到低排序,核心存储选项的价格为:

  • Azure NetApp 文件
  • Azure Premium Blob 和 Premium Files
  • Azure 标准 Blob

有关定价的详细信息,请参阅 Azure 产品定价