发生影响 Azure 云服务(经典)的 Azure 服务中断时该怎么办

重要

新客户的云服务(经典版)现已弃用,并将于 2024 年 8 月 31 日对所有客户停用。 新部署应使用基于 Azure 资源管理器的新型部署模型 Azure 云服务(外延支持)

Microsoft 的同仁兢兢业业,只为确保在任何时候都能提供需要的服务。 但有时候会因为不可抗力的影响,造成服务意外中断。

Microsoft 为其服务提供服务级别协议 (SLA),作为运行时间和连接承诺。 可以在 Azure 服务级别协议中找到各种 Azure 服务的 SLA。

Azure 已在平台中内置多种功能,用于支持高度可用的应用程序。

本文介绍了当整个区域因重大自然灾难或大规模服务中断而发生中断时的真实灾难恢复方案。 这些都是极其罕见的情况,但你还是必须对整个区域发生中断的可能性有所准备。 如果整个区域的服务中断,会暂时无法使用数据的本地冗余副本。 如果启用了异地复制,则会在其他区域额外存储 Azure 存储 blob 和表的三个副本。 如果发生全面性区域中断或发生主要区域无法恢复的灾难,Azure 会将所有 DNS 条目重新映射到异地复制区域。

注意

注意,对此过程无任何控制权,并且此过程仅适用于数据中心范围的服务中断。 因此,还必须依靠应用程序特有的其他备份方法才能达到最高级别的可用性。 如果要能够影响自己的故障转移,则可能需要考虑使用读取访问异地冗余存储 (RA-GRS),这会在其他区域中创建数据的只读副本。

选项 1:通过 Azure 流量管理器使用备份部署

最可靠的灾难恢复解决方案涉及在不同区域维护应用程序的多个部署,并使用 Azure 流量管理器引导它们之间的流量。 Azure 流量管理器提供多个路由方法,因此可选择使用主/备份模型管理部署或拆分它们之间的流量。

Balancing Azure Cloud Services across regions with Azure Traffic Manager

若要实现对区域丢失作出最快响应,配置流量管理器的终结点监视非常重要。

选项 2:将应用程序部署到新区域

上一选项中所述的维持多个活动部署会持续产生额外成本。 如果恢复时间目标 (RTO) 足够灵活且你具有原始代码或已编译云服务包,可在另一区域中创建一个应用程序新实例,并更新 DNS 记录以指向新部署。

有关如何创建和部署云服务应用程序的详细信息,请参阅如何创建和部署云服务

根据应用程序数据源,可能需要检查应用程序数据源的恢复过程。

选项 3:等待恢复

这种情况下,无需进行任何操作,但是在区域还原前服务不可用。 可在 Azure 服务运行状况仪表板上查看当前服务状态。