更换 Azure Stack Hub 缩放单元节点上的硬件组件

本文介绍更换非热插拔硬件组件的一般过程。 实际的更换步骤将因原始设备制造商 (OEM) 硬件供应商而异。 有关 Azure Stack Hub 集成系统特有的详细步骤,请参阅供应商的现场可更换部件 (FRU) 文档。

注意

固件分级对于本文中所述的操作的成功至关重要。 缺少此步骤可能会导致系统不稳定、性能降低、安全威胁或阻止 Azure Stack Hub 自动化部署操作系统。 更换硬件时,请始终参阅硬件合作伙伴的文档,以确保应用的固件与 Azure Stack Hub 管理员门户中显示的 OEM 版本匹配。

警告

Azure Stack Hub 要求解决方案中所有服务器的配置都具有相同配置,包括 CPU(模型、核心)、内存数量、NIC 和链接速度以及存储设备等。 在更换硬件或添加缩放单位节点时,Azure Stack Hub 不支持 CPU 模型中的更改。 CPU 更改(例如升级)需要在每个缩放单元节点中使用统一的 CPU 并重新部署 Azure Stack Hub。

硬件合作伙伴 区域 URL
Cisco 全部 适用于 Azure Stack Hub 的 Cisco 集成系统操作指南

适用于 Azure Stack Hub 的 Cisco 集成系统的发行说明
Dell EMC 全部 Cloud for Azure Stack Hub 14G(需要帐户和登录)

Cloud for Azure Stack Hub 13G(需要帐户和登录)
HPE 全部 HPE ProLiant for Azure Stack Hub
Lenovo 全部 ThinkAgile SXM 最佳食谱
Wortmann OEM/固件包
terra Azure Stack Hub 文档(包括 FRU)

非热插拔组件包括以下项:

  • CPU 必须是相同类型(模型、核心)*
  • 内存*
  • 母板/基板管理控制器 (BMC)/视频卡
  • 磁盘控制器/主机总线适配器 (HBA)/底板
  • 网络适配器 (NIC)
  • 图形处理单元 (GPU)
  • 操作系统磁盘*
  • 数据驱动器(不支持热插拔的驱动器,例如 PCI-e 外接卡)*

*这些组件可能支持热插拔,但因供应商实施情况而有所不同。 有关详细步骤,请参阅 OEM 供应商的 FRU 文档。

以下流程图显示更换非热插拔硬件组件的一般 FRU 过程。

Flow diagram showing component replacement flow

  • 根据硬件的物理条件,可能不需要此操作。

** OEM 硬件供应商是否进行组件更换和固件更新可能会因支持合同而异。

查看警报信息

Azure Stack Hub 运行状况和监视系统会跟踪存储空间直通所控制的网络适配器和数据驱动器的运行状况。 它不会跟踪其他硬件组件。 针对所有其他硬件组件,在硬件生命周期主机上运行的供应商特定硬件监视解决方案中引发警报。

组件更换过程

以下步骤提供组件更换过程的高级概述。 请勿在未参考 OEM 提供的 FRU 文档的情况下按照这些步骤操作。

  1. 使用关闭操作正常关闭缩放单元节点。 根据硬件的物理条件,可能不需要此操作。

  2. 万一关闭操作失败,请使用清空操作使缩放单元节点进入维护模式。 根据硬件的物理条件,可能不需要此操作。

    注意

    在任何情况下,只能同时禁用一个节点并关机,而不中断 S2D(存储空间直通)。

  3. 缩放单元节点处于维护模式后,请使用关闭电源操作。 根据硬件的物理条件,可能不需要此操作。

    注意

    在关闭电源操作不起作用的罕见情况下,请改用基板管理控制器 (BMC) Web 界面。

  4. 更换损坏的硬件组件。 OEM 硬件供应商是否进行组件更换可能会因支持合同而异。

  5. 更新固件。 请使用硬件生命周期主机按照供应商特定的固件更新过程进行操作,以确保替换的硬件组件已应用批准的固件级别。 OEM 硬件供应商是否执行此步骤可能会因支持合同而异。

  6. 使用修复操作将缩放单元节点恢复到缩放单元。

  7. 使用到特权终结点检查虚拟磁盘修复状态。 利用新的数据驱动器,完整的存储修复作业可能需要数小时的时间,具体取决于系统负载和已使用的空间。

  8. 修复操作完成后,验证是否已自动关闭所有活动警报。

后续步骤