本指南提供了最佳实践、使用指南、存储解决方案的详细比较和技术规范,旨在为您的 Azure VM 上的 HPC 工作负载提供最佳适用的选择。 它包括性能指标、协议支持、成本层以及每种存储类型的用例对齐方式。 通常需要在针对成本优化和针对性能优化之间进行权衡。 如果工作负荷要求较低,可能不需要每项建议的优化。 评估这些建议时应考虑性能需求、成本和工作负荷模式。
概述
HPC 工作负荷的存储由核心存储组成,在某些情况下是加速器。 核心存储充当数据的永久主页。 它包含丰富的数据管理功能,具有持久性、可用、可缩放、弹性和安全性。 加速器通过提供高性能数据访问来增强核心存储。 可以按需预配加速器,并使计算工作负荷能够更快地访问数据。
存储服务比较
| 功能 | 标准 Blob | 高级 Blob | 高级文件 |
|---|---|---|---|
| 容量 | 20+ PiB | 20+ PiB | 100 TiB |
| 带宽 | 15 GB/秒 | 15 GB/秒 | 10 GB/秒 |
| IOPS | 20,000 | 20,000 | 100,000 |
| 延迟 | <100 毫秒 | <10 毫秒 | 2-4 毫秒 |
| 协议 | REST、HDFS、NFSv3、SFTP、FUSE、CSI | 相同 | REST、NFSv4.1、SMB3、CSI |
初步考虑
如果从头开始,请参阅 “了解数据存储模型 ”以选择数据存储, 然后选择 Azure 存储服务 或 Azure 存储简介 ,了解存储服务选项。
概览
从计划存储的数据量开始。 然后,考虑工作负荷使用的 CPU 核心数和文件大小。 这些因素可帮助你缩小最适合工作负荷的核心存储服务范围,以及是否使用加速器来增强性能。
| 配置 | CPU 核心数 | 文件大小 | 核心存储建议 | 加速器建议 |
|---|---|---|---|---|
| 低于 50 TiB | 不适用 | 不适用 | Azure 文件 | 无加速器 |
| 50 TiB - 5,000 TiB | 小于 500 | 不适用 | Azure 文件 | 无加速器 |
| 50 TiB - 5,000 TiB | 超过 500 | 1 MiB 和更大 | Azure 标准 Blob。 它受所有加速器支持,支持许多协议,并且经济高效。 | 与您的现场或客户团队联系。 |
| 50 TiB - 5,000 TiB | 超过 500 | 小于 1 MiB | Azure 高级 Blob 或 Azure 标准 Blob。 | 与您的现场或客户团队联系。 |
| 50 TiB - 5,000 TiB | 超过 500 | 小于 512 KiB | Azure NetApp 文件 。 | 无加速器 |
| 超过 5,000 TiB | 不适用 | 不适用 | 与您的现场或客户团队联系。 |
解决方案详细信息
如果在使用决策树后仍停滞在选项之间,下面是每个解决方案的更多详细信息:
| 解决方案 | 最佳性能和可扩展性 | 数据访问(访问协议) | 计费模型 | 核心存储或加速器 |
|---|---|---|---|---|
| Azure 标准 Blob | * 适用于大型文件、带宽密集型工作负荷。 * 专为非结构化数据而设计。 * 支持高吞吐量工作负荷。 |
* 适用于传统(文件)和云原生(REST)HPC 应用。 * 易于访问、共享、管理数据集。 * 适用于所有加速器。 |
为使用的内容付费。 | 核心存储。 |
| Azure Premium Blob | * IOPS 和延迟优于标准 Blob。 * 适用于具有许多中型文件和混合文件大小的数据集。 |
适用于传统(文件)和云原生(REST)HPC 应用。 易于访问、共享、管理数据集。 适用于所有加速器。 |
为使用的内容付费。 | 核心存储。 |
| Azure Premium Files | 适用于较小规模(<1k 核)的容量和带宽。 * 这些 IOPS 和延迟适合中等大小文件(>512 KiB)。 * 提供高级(低延迟、高 IOPS)SKU。 * 通过 Azure 文件同步进行混合访问。 |
轻松与 Linux(NFS)和 Windows(SMB)集成,但不能同时使用 NFS+SMB 访问相同的数据。 | 为已配置的服务付费。 | 核心存储。 |
| Azure NetApp Files | * 容量和带宽适用于中型作业(1k-10k 核心)。 * IOPS 和延迟适用于小型文件数据集(<512 KiB)。 * 非常适合小型多文件工作负荷。 * 使用 ONTAP 技术的企业级文件存储。 * 标准层、高级层、超高层之间的性能动态调整。 |
易于与 Linux 和 Windows 集成,支持在使用 Linux 和 Windows 的工作流中进行多协议操作。 | 支付您配置的资源。 | 要么。 |
专用存储解决方案
Azure 提供一系列专为满足 HPC 工作负荷需求而定制的存储服务。 每个解决方案都针对不同的性能特征、访问模式和成本结构进行优化。 下面是最相关存储选项的综述,以及它们在 HPC 场景中最适合的用途。
| 存储解决方案 | 用例 | 性能基准 | 可伸缩性选项 | 与其他 Azure 服务集成 |
|---|---|---|---|---|
| Azure Blob 存储 | * 数据分析 * 内容分发 * 备份和存档 |
BlobFuse2 的吞吐量高达 30GB/秒 | * 每个存储帐户的容量最多为 5 PiB * 每个帐户的容器数不受限制 |
* Azure AI * AKS * Azure Data Lake |
| Azure 文件存储 | * DevOps *备份 * 远程工作 |
传输加密(适用于 NFS 共享的 TLS 1.3) | * 文件共享空间最高为 100 TiB(标准) * IOPS 最高为 100,000 (高级版) |
* Azure 备份 * Azure Monitor * Microsoft Entra ID |
AI 和 RAG 工作负载存储要求
AI 和 RAG 工作负载的存储要求因不同阶段而异。 在训练阶段,必须具有较高的吞吐量、检查点、本地缓存以及加载大型模型的能力。 对于推理阶段,需要快速模型访问、低延迟和并发 GPU 访问。 在 RAG 阶段,需要安全的非结构化存储、矢量数据库集成、新鲜度和低延迟。
合作伙伴解决方案
| 合作伙伴 | 协议 | Scale | 独特功能 |
|---|---|---|---|
| 库穆洛 | NFS、SMB、S3 | 200 PiB | Azure 原生 SaaS、全局命名空间、经济高效 |
| Dell APEX | NFS、SMB、S3、HDFS | 5.6 PiB | 本地基础设施一致性、基于策略的分层 |
| Nasuni | NFS、SMB、S3 | — | 文件锁定,Blob 用作主层 |
| Hammerspace | NFS、SMB、S3、pNFS | — | 全局命名空间,缓存替代项 |
| Weka | NFS、SMB、S3 | 14 EB | 高 IOPS、低延迟、线性横向扩展 |
| IBM SpectrumScale | GPFS、NFS、SMB | — | 完整 GPFS 堆栈 |
| DDN Exascaler | Lustre、NFS、SMB | 拍字节 | 完整 DDN Lustre 堆栈 |
性能优化提示
- 根据性能调整卷大小,而不仅仅是容量。
- 使用可用性区域控制延迟。
- 使用 ANF 中的大容量卷功能以实现最大化带宽。
- 考虑缓存和分层策略,提高成本效益。
核心存储价格比较
价格从高到低排序,核心存储选项的价格为:
- Azure NetApp 文件
- Azure Premium Blob 和 Premium Files
- Azure 标准 Blob
有关定价的详细信息,请参阅 Azure 产品定价。