Compartir a través de

虚拟机的可靠性

本文详细介绍了可用性区域的 VM 区域复原能力,以及跨区域灾难恢复和业务连续性

可用性区域支持

可用性区域是每个 Azure 区域内在物理上独立的数据中心组。 当一个区域发生故障时,服务可以故障转移到其余区域中的一个。

有关 Azure 中可用性区域的详细信息,请参阅什么是可用性区域?

虚拟机支持可用性区域,每个受支持的 Azure 区域有三个可用性区域,它们也是区域冗余和区域性的。 有关详细信息,请参阅具有可用性区域的 Azure 服务。 客户负责配置和迁移其虚拟机以实现可用性。

若要详细了解可用性区域就绪情况选项,请参阅:

先决条件

SLA 改进

由于可用性区域在物理上是独立的,并且提供不同的电源、网络和冷却,因此 SLA(服务级别协议)会增加。 有关详细信息,请参阅虚拟机的 SLA

创建启用可用性区域的资源

通过以下部署选项创建虚拟机 (VM),并启用可用性区域:

区域故障转移支持

可以使用 Site Recovery 服务将虚拟机设置为故障转移到另一个区域。 有关详细信息,请参阅 Site Recovery

容错

虚拟机可以故障转移到群集中的另一台服务器,而 VM 的操作系统将在新服务器上重启。 应参考灾难恢复的故障转移过程,在恢复规划中收集虚拟机,并运行灾难恢复演练,以确保其容错解决方案能够成功。

有关详细信息,请参阅站点恢复过程

区域故障体验

在发生区域范围的中断期间,性能会短时间下降,直到虚拟机服务的自我修复功能重新平衡基础容量,以根据正常区域做出调整。 自我修复不依赖于区域还原;预计 Azure 托管服务自助修复状态会使用来自其他区域的容量来补偿丢失的区域。

还应为整个区域发生中断的可能性做好准备。 如果整个区域出现服务中断,会暂时无法使用数据的本地冗余副本。 如果启用了异地复制,则会在其他区域额外存储 Azure 存储 blob 和表的三个副本。 当发生全面区域中断或发生主要区域无法恢复的灾难时,Azure 会将所有 DNS 条目重新映射到异地复制区域。

区域服务中断准备和恢复

在部署 Azure 虚拟机应用程序的整个区域的服务中断期间,为 Azure 虚拟机提供以下指导:

低延迟设计

设计低延迟虚拟机解决方案时,可以使用跨区域(次要区域)、跨订阅(预览版)和跨局部区域(预览版)。 有关这些选项的详细信息,请参阅支持的还原方法

重要

通过选择退出区域感知部署,你放弃对基础故障的隔离保护。 使用不支持可用性区域的 SKU 或选择退出可用性区域配置会强制依赖于不符合局部区域放置和隔离的资源(包括这些资源的基础依赖项)。 不应期望这些资源在局部区域停机情形中幸存下来。 利用此类资源的解决方案应定义一个灾难恢复策略,并在另一个区域中配置解决方案的恢复。

安全部署技术

选择可用性区域隔离时,应将安全部署技术用于应用程序代码和应用程序升级。 除了配置 Azure Site Recovery,并为 VM 实现以下任一安全部署技术:

由于 Azure 定期执行计划性维护更新,因此在极少数情况下,这些更新需要重启虚拟机才能将所需的更新应用于底层基础结构。 要了解更多,请参阅计划性维护期间的可用性注意事项

升级另一个区域中的下一组节点之前,应执行以下任务:

迁移到可用性区域支持

若要了解如何将 VM 迁移到可用性区域支持,请参阅将虚拟机和虚拟机规模集迁移到可用性区域支持

跨区域灾难恢复和业务连续性

灾难恢复 (DR) 是指从会导致故障时间和数据丢失的高影响事件(例如自然灾害或部署失败)中恢复。 不管灾难的原因是什么,最好的补救措施就是一个定义全面且经过测试的 DR 计划,以及一个主动支持 DR 的应用程序设计。 在开始考虑创建灾难恢复计划之前,请参阅设计灾难恢复策略的建议

在 DR 方面,Azure 使用共同责任模型。 在共担责任模型中,Azure 会确保基线基础结构和平台服务可用。 同时,许多 Azure 服务不会自动复制数据,也不会从失败区域回退以交叉复制到另一个启用的区域。 对于这些服务,你负责设置适用于工作负载的灾难恢复计划。 大多数在 Azure 平台即服务 (PaaS) 产品/服务上运行的服务都提供支持 DR 的功能和指导,你可以使用特定于服务的功能来支持快速恢复,从而帮助制定 DR 计划。

可以使用跨区域还原通过配对区域还原 Azure VM。 通过跨区域还原,如果备份在次要区域中完成,则可以还原所选恢复点的所有 Azure VM。 有关跨区域还原的详细信息,请参阅还原选项中的跨区域表行条目。

多区域地理位置中的灾难恢复

对于区域范围的服务中断,Microsoft 会努力还原虚拟机服务。 但是,仍然必须依靠应用程序特有的其他备份方法才能达到最高级别的可用性。 有关详细信息,请参阅灾难恢复的数据策略部分。

服务中断检测、通知和管理

虚拟机的硬件或物理基础结构可能会意外失败。 意外故障可能包括本地网络故障、本地磁盘故障或其他机架级故障。 检测到此类故障时,Azure 平台会自动将虚拟机迁移(恢复)到同一数据中心内的正常物理机。 在修复过程中,虚拟机会经历停机(重启),在某些情况下会丢失临时驱动器。 始终会保留附加的 OS 和数据磁盘。

有关虚拟机服务中断的更多详细信息,请参阅灾难恢复指南

设置灾难恢复和中断检测

为虚拟机设置灾难恢复时,请了解 Azure Site Recovery 提供的功能。 使用以下方法为虚拟机启用灾难恢复:

单区域地理位置中的灾难恢复

设置好灾难恢复后,Azure VM 就可以持续复制到不同的目标区域。 如果发生服务中断,可将 VM 故障转移到次要区域,然后在次要区域中对其进行访问。

使用 Site Recovery 复制 Azure VM 时,所有 VM 磁盘将以异步方式持续复制到目标区域。 恢复点每隔几分钟创建一次,这为你提供了恢复点目标 (RPO)(以分钟为单位)。 可以开展灾难恢复演练任意次,这不会影响生产应用程序或正在进行的复制。 有关详细信息,请参阅运行灾难恢复到 Azure 的演练

有关详细信息,请参阅 Azure VM 体系结构组件区域配对

容量和主动灾难恢复复原能力

Azure 及其客户按共担责任模型运营。 共担责任意味着,对于客户启用的 DR(客户负责的服务),必须为其部署和控制的任何服务解决 DR 问题。 为了确保恢复是主动的,应始终预先部署辅助资源,因为对于那些尚未预先分配的资源,无法在影响发生时保证容量。

对于部署虚拟机,可以在虚拟机规模集上使用灵活的业务流程模式。 所有 VM 大小都适配灵活的业务流程模式。 灵活业务流程模式还会将 VM 分散到某个地理区域或可用性区域的多个容错域中,从而提供高可用性保证(最多支持 1000 个 VM)。

后续步骤