Service Fabric 托管群集 (SFMC) 添加了一项功能,可通过节点自动修复帮助群集自动保持正常运行,从而进一步减少所需的运营管理。 此新功能将检测群集中的节点何时关闭,并尝试修复它们,而无需用户干预。 本文档介绍 Service Fabric 托管群集节点的自动节点修复的工作原理。
SFMC 如何检查节点何时关闭
Service Fabric 托管群集持续监视节点的运行状况并记录节点启动和关闭的时间。 如果检测到某个节点关闭达到预定义时长,SFMC 会对该节点启动自动修复操作。 此预定义时长当前配置为 24 小时,可在将来对其进行优化。
自动修复的工作原理
如果检测到 Service Fabric 节点关闭达到 24 小时,SFMC 将对基础虚拟机 (VM) 执行以下修复操作:
- 重新启动节点的基础 VM。
- 如果重新启动无法启动节点,则重新部署节点。
- 如果重新部署未能成功启动节点,则解除分配并重新启动 VM。
- 如果解除分配无法启动节点,则重置节点映像。
SFMC 在每个操作后等待节点恢复,如果某个节点未启动,SFMC 将继续执行下一操作。 节点自动修复操作启动后通常需要大约 30 分钟,但迭代并完成所述的全套操作可能需要 3 个多小时。 如果在 SFMC 尝试了上述所有修复操作后节点仍处于关闭状态,则不再进行重试。 如果自动修复无法启动节点,SF 工程师将研究替代补救措施。
如果 SFMC 在运行状况检查期间发现多个节点关闭,则在开始另一个修复之前,将单独修复每个节点。 SFMC 尝试按照检测到节点的相同顺序修复节点。
虽然节点自动修复涵盖了上述方案,但客户应继续监视群集及其资源的运行状况。 此功能的目标是减轻群集管理和操作的负担。
未来的路线图
本次发布是节点自动修复功能的第一次迭代,未来 SFMC 会不断完善和扩大范围。