Azure Service Fabric 托管群集 (SFMC) 节点自动修复

Service Fabric 托管群集 (SFMC) 添加了一项功能,可通过节点自动修复帮助群集自动保持正常运行,从而进一步减少所需的运营管理。 此新功能将检测群集中的节点何时关闭,并尝试修复它们,而无需用户干预。 本文档介绍 Service Fabric 托管群集节点的自动节点修复的工作原理。

SFMC 如何检查节点何时关闭

Service Fabric 托管群集持续监视节点的运行状况并记录节点启动和关闭的时间。 如果检测到某个节点关闭达到预定义时长,SFMC 会对该节点启动自动修复操作。 此预定义时长当前配置为 24 小时,可在将来对其进行优化。

自动修复的工作原理

如果检测到 Service Fabric 节点关闭达到 24 小时,SFMC 将对基础虚拟机 (VM) 执行以下修复操作:

  1. 重新启动节点的基础 VM。
  2. 如果重新启动无法启动节点,则重新部署节点。
  3. 如果重新部署未能成功启动节点,则解除分配并重新启动 VM。
  4. 如果解除分配无法启动节点,则重置节点映像。

SFMC 在每个操作后等待节点恢复,如果某个节点未启动,SFMC 将继续执行下一操作。 节点自动修复操作启动后通常需要大约 30 分钟,但迭代并完成所述的全套操作可能需要 3 个多小时。 如果在 SFMC 尝试了上述所有修复操作后节点仍处于关闭状态,则不再进行重试。 如果自动修复无法启动节点,SF 工程师将研究替代补救措施。

如果 SFMC 在运行状况检查期间发现多个节点关闭,则在开始另一个修复之前,将单独修复每个节点。 SFMC 尝试按照检测到节点的相同顺序修复节点。

虽然节点自动修复涵盖了上述方案,但客户应继续监视群集及其资源的运行状况。 此功能的目标是减轻群集管理和操作的负担。

未来的路线图

本次发布是节点自动修复功能的第一次迭代,未来 SFMC 会不断完善和扩大范围。

后续步骤