Azure Stack Hub 中的缩放单元节点操作
本文介绍如何查看缩放单元的状态。 可以查看单元的节点。 可以运行开机、关机、关闭、清空、恢复和修复等节点操作。 通常,在现场更换组件期间或者在帮助恢复节点时,会使用这些节点操作。
重要
本文中所述的所有节点操作每次应该针对一个节点。
查看节点状态
在管理员门户中,可以查看缩放单元及其关联节点的状态。
查看缩放单元的状态:
在“区域管理”磁贴中选择区域。
在左侧的“基础结构资源”下,选择“缩放单元”。
在结果中选择缩放单元。
从左侧的“常规”下面,选择“节点”。
查看以下信息:
- 各个节点的列表。
- 操作状态(请参见以下列表)。
- 电源状态(“正在运行”或“已停止”)。
- 服务器模型。
- 基板管理控制器 (BMC) 的 IP 地址。
- 核心总数。
- 总内存量。
节点操作还可以在管理员门户中引发所需的警报。
节点操作状态
状态 | 说明 |
---|---|
正在运行 | 节点都积极参与缩放单元。 |
已停止 | 节点不可用。 |
正在添加 | 正在主动将节点添加到缩放单元。 |
正在修复 | 正在主动修复节点。 |
维护 | 节点已暂停,没有处于运行状态的活动用户工作负荷。 |
需要修正 | 检测到错误,需要修复节点。 |
Azure Stack Hub 在操作后显示“正在添加”状态
Azure Stack Hub 在执行排出、恢复、修复、关闭或启动之类的操作后,可能会将操作节点状态显示为“正在添加”。 如果 Fabric 资源提供程序角色缓存在操作之后未刷新,可能会发生这种情况。
在应用以下步骤之前,请确保当前没有正在进行的操作。 更新终结点,使之与环境匹配。
打开 PowerShell 并添加 Azure Stack Hub 环境。 这需要在计算机上安装 Azure Stack Hub PowerShell。
Add-AzEnvironment -Name AzureStack -ARMEndpoint https://adminmanagement.local.azurestack.external Connect-AzAccount -Environment AzureStack
运行以下命令以重启 Fabric 资源提供程序角色。
Restart-AzsInfrastructureRole -Name FabricResourceProvider
验证受影响的缩放单元节点的操作状态是否已更改为“正在运行”。 可以使用管理员门户或以下 PowerShell 命令:
Get-AzsScaleUnitNode |ft name,scaleunitnodestatus,powerstate
如果节点操作状态仍显示为“正在添加”,则继续创建支持事件。
缩放单元节点操作
查看缩放单元节点的相关信息时,也可以执行节点操作,例如:
- 启动和停止(取决于当前电源状态)。
- 禁用和恢复(取决于操作状态)。
- 修复。
- 关闭。
节点的工作状态确定了哪些选项可用。
需要安装 Azure Stack Hub PowerShell 模块。 这些 cmdlet 位于 Azs.Fabric.Admin 模块中。 若要安装或验证适用于 Azure Stack Hub 的 PowerShell 的安装,请参阅安装适用于 Azure Stack Hub 的 PowerShell。
停止
“停止”操作会关闭节点。 它的作用如同按下电源按钮。 它不会向操作系统发送关闭信号。 对于计划的停止操作,请始终先尝试关闭操作。
当节点不再响应请求时,通常使用此操作。
若要运行停止操作,请打开权限提升的 PowerShell 提示符,并运行以下 cmdlet:
Stop-AzsScaleUnitNode -Location <RegionName> -Name <NodeName>
在停止操作不起作用的情况下(这种情况很少见),请重试操作,如果仍然失败,请改用 BMC Web 界面。
有关详细信息,请参阅 Stop-AzsScaleUnitNode。
开始
“启动”操作会打开节点。 它的作用如同按下电源按钮。
若要运行启动操作,请打开权限提升的 PowerShell 提示符,并运行以下 cmdlet:
Start-AzsScaleUnitNode -Location <RegionName> -Name <NodeName>
万一启动操作不起作用,则重试该操作。 如果它再次失败,请改用 BMC Web 界面。
有关详细信息,请参阅 Start-AzsScaleUnitNode。
清空
“清空”操作将所有活动工作负荷移到该特定缩放单元中的剩余节点。
在现场更换组件期间(例如,更换整个节点),通常使用此操作。
重要
在计划内维护时段内,确保只在已通知用户后才对节点进行清空操作。 在某些情况下,活动的工作负荷可能遇到中断。
若要运行清空操作,请打开权限提升的 PowerShell 提示符,并运行以下 cmdlet:
Disable-AzsScaleUnitNode -Location <RegionName> -Name <NodeName>
有关详细信息,请参阅 Disable-AzsScaleUnitNode。
恢复
“恢复”操作恢复已禁用的节点,并将其标记为活动,可用于放置工作负荷。 之前在节点上运行的工作负荷不会故障回复。 (如果在节点上使用清空操作,请务必关机。将节点重新开机时,系统不会将它标记为可放置工作负载的活动状态。准备就绪后,必须使用恢复操作将节点标记为活动。)
若要运行恢复操作,请打开权限提升的 PowerShell 提示符,并运行以下 cmdlet:
Enable-AzsScaleUnitNode -Location <RegionName> -Name <NodeName>
有关详细信息,请参阅 Enable-AzsScaleUnitNode。
修复
注意
固件分级对于本文中所述的操作的成功至关重要。 当 Azure Stack Hub 自动化部署操作系统时,缺少此步骤可能会导致系统不稳定、性能降低、安全威胁或失败。 更换硬件时,请始终参阅硬件合作伙伴的文档,以确保应用的固件与 Azure Stack Hub 管理员门户中显示的 OEM 版本匹配。
有关详细信息和合作伙伴文档的链接,请参阅更换硬件组件。
硬件合作伙伴 | 区域 | URL |
---|---|---|
Cisco | 全部 | 适用于 Azure Stack Hub 的 Cisco 集成系统操作指南 适用于 Azure Stack Hub 的 Cisco 集成系统的发行说明 |
Dell EMC | 全部 | Cloud for Azure Stack Hub 14G(需要帐户和登录) Cloud for Azure Stack Hub 13G(需要帐户和登录) |
HPE | 全部 | HPE ProLiant for Azure Stack Hub |
Lenovo | 全部 | ThinkAgile SXM 最佳食谱 |
“修复”操作可修复节点。 请只在出现以下情况时才使用此操作:
- 更换整个节点(不管是否包含新数据磁盘)时。
- 硬件组件发生故障并予以更换之后(如果现场可更换单元 [FRU] 文档中建议更换)。
重要
需要更换节点或单个硬件组件时,请参阅 OEM 硬件供应商的 FRU 文档,以了解具体步骤。 FRU 文档将指定在更换硬件组件之后是否需要运行修复操作。
运行修复操作时,需要指定 BMC IP 地址。
若要运行修复操作,请打开权限提升的 PowerShell 提示符,并运行以下 cmdlet:
Repair-AzsScaleUnitNode -Location <RegionName> -Name <NodeName> -BMCIPv4Address <BMCIPv4Address>
Shutdown
“关闭”操作会先将所有活动工作负荷移到同一缩放单元中的其余节点。 然后该操作会正常关闭缩放单元节点。
启动已关闭的节点后,需要运行 恢复操作。 之前在节点上运行的工作负荷不会故障回复。
如果关闭操作失败,请尝试“清空”操作,然后执行关闭操作。
若要运行关闭操作,请打开权限提升的 PowerShell 提示符,并运行以下 cmdlet:
Stop-AzsScaleUnitNode -Location <RegionName> -Name <NodeName> -Shutdown