Azure Site Recovery的可靠性

Azure Site Recovery 是虚拟机（VM）的托管复制和故障转移服务，可在中断期间保持工作负荷可用。它持续将工作负荷从主站点复制到辅助位置，并限制数据丢失和停机时间。在计划内维护或意外中断期间，它会协调故障转移和故障回复。此服务支持本地环境和 Azure VM 的灾难恢复（DR），这有助于组织保持业务连续性。

使用 Azure 时，可靠性是共同的责任。 Azure提供了一系列功能来支持复原和恢复。你负责了解这些功能如何在你使用的所有服务中工作，并选择满足业务目标和运行时间目标所需的功能。

本文介绍如何增强 Site Recovery 的恢复能力，应对各种潜在的中断和问题，包括暂时性错误、可用区中断和区域中断。它还突出显示了有关 Site Recovery 服务级别协议（SLA）的关键信息。

注释

本文介绍了 Site Recovery 服务是如何具备弹性的，或者您可以如何使其具备弹性，以应对各种问题。它不介绍如何使用 Site Recovery 来保护 VM 或其他资产。有关详细信息，请参阅关于 Site Recovery。

提高可靠性的生产部署建议

将 Site Recovery 与生产工作负荷配合使用时，建议执行以下操作：

在目标区域中部署您的恢复服务保管库以便进行复制。
对于 Azure 到 Azure DR，对于数据更改率较高的 VM，请使用 Site Recovery 高流失功能。高流失率支持可改进恢复点目标（RPO），并为许多大型数据库工作负载启用复制。
对于 Azure 到 Azure DR，请将缓存存储帐户配置为使用区域冗余存储（ZRS）。
作为灾难恢复演练的一部分，定期执行测试切换。运行 DR 演练，每季度或每半年执行一次，以验证复制和故障转移过程是否正常。
使用按需容量预留来确保计算资源在目标区域中随时可用，以便进行故障转移。
为移动代理启用自动更新。
监视复制的运行状况，并配置警报，以便在出现问题时收到通知。

可靠性体系结构概述

使用 Site Recovery 时，定义一个表示复制的 VM 的源和目标：

源可以是另一个受支持源的 Azure VM 或 VM 或服务器，包括本地物理服务器、VMware VM 和 Hyper-V VM。
target始终是Azure VM。对于 Azure 到 Azure VM 复制，目标可以是源 VM 所在的不同区域或可用区。

你负责部署和配置资源和相关设置，包括：

Recovery Services 保管库 是 Site Recovery 用于存储复制配置设置的地方。保管库不会存储复制的数据。保管库的冗余配置对于Site Recovery并不重要，但如果对Azure 备份使用相同的保管库，则这一点很重要。

保管库可以包括额外的配置，例如：
- 复制策略，用于配置快照频率和保留长度。
- 恢复计划，用于协调设备故障转移的顺序，并可以包括手动操作和脚本。恢复计划对于具有多个层（例如应用程序和数据库层）的工作负荷特别有用，这些工作负荷需要按特定顺序进行故障转移。
对于 Azure 到 Azure 的复制，使用的 缓存存储帐户会先在其所在区域存储源数据的副本，然后再复制到目标。缓存存储帐户的冗余配置可能会影响可用性区域中断期间的可靠性。

此图显示了 Site Recovery 中恢复服务保管库、缓存存储帐户、源和目标之间的关系。

注释

本指南重点介绍 Site Recovery 的基于 Azure 的组件的可靠性以及复制关系。如果从本地环境或其他云提供商复制数据或 VM，请考虑 Azure 外部组件的可靠性。

有关部署的组件的详细信息，请参阅以下文章：

核心Site Recovery服务在Azure管理的基础结构上运行。本文将这些组件统称为 核心 Site Recovery 服务。

暂时性故障的复原能力

暂时性故障是指组件发生短暂的间歇性故障。这些故障经常出现在云之类的分布式环境中，在运营过程中比较常见。暂时性故障在短时间内自行纠正。应用程序通常可以通过重试受影响的请求来处理暂时性故障，这一点很重要。

与任何云托管的 API、数据库和其他组件通信时，所有云托管的应用程序都应遵循 Azure 暂时性故障处理指南。有关详细信息，请参阅有关处理暂时性故障的建议。

Site Recovery通过重试其操作自动处理在复制过程中发生的暂时性故障。无需为 Site Recovery 配置暂时性故障处理。

对区域范围的故障的复原能力

对于 Azure 到 Azure 复制，Site Recovery 通过将 VM 故障转移到正常的目标区域，提供对区域故障的复原能力。有关详细信息，请参阅将 VM Azure 复制到另一个Azure区域。

注意事项

保管库区域： 将恢复服务保管库部署到你选择的特定 Azure 区域。存储库所在的地区非常重要。在保管库区域发生故障期间，复制操作会持续进行。但是，直到区域恢复时，无法执行 Site Recovery 管理操作，包括切换和切回。

在目标区域中部署保管库有助于确保在源区域中断期间故障转移和恢复操作保持可用。它还可以防止第三个区域的停机影响故障转移和恢复操作。

注释

如果保管库位于通常用作目标区域的区域，则在故障转移并重新建立复制后，该区域将成为新的源区域。如果该区域随后遇到问题，可能要等到两个区域都恢复正常后才能执行故障恢复。
容量预留： 你负责验证目标区域是否支持所需的 VM 类型，以及它是否具有工作负荷的可用容量。建议使用按需容量预留来保证发生故障转移时，计算资源可用于工作负载。

配置多区域支持

恢复服务保管库： 需要选择保管库的区域。有关详细信息，请参阅注意事项。

恢复服务保管库具有冗余设置，但 Site Recovery 不使用保管库的冗余配置。使用Site Recovery时，无需为保管库配置异地冗余。
缓存存储帐户： 缓存存储帐户仅在复制数据之前用作数据的临时位置，因此不应将其配置为使用异地冗余存储（GRS）。

区域故障期间的行为

区域故障期间Site Recovery核心服务的特定行为取决于哪些区域遇到故障：

源区域故障： 对于 Azure 到 Azure 的复制，当源区域不可用时，可以触发故障转移。

由于源区域不可用，因此复制将停止，直到源区域中的 VM 正常运行。

此图显示了源区域和目标区域。源 VM 中显示了两个故障。标记为 Site Recovery 复制的箭头指向目标区域。目标区域包括目标 VM 和恢复服务保管库。
目标区域中的失败： 由于目标区域不可用，复制过程会停止，只有在区域恢复正常后，您才无法切换至目标。

此图显示了源区域和目标区域。源区域包含源 VM。标记为 Site Recovery 复制的箭头指向目标区域。 X 表示复制失败。目标区域包括目标 VM 和恢复服务保管库。目标 VM 和恢复服务保管库中显示故障信息。
包含保管库的区域失败： 如果将保管库部署到第三个区域（而不是源或目标区域），并且该区域遇到故障，Site Recovery 将继续复制数据。在保管库健康之前，无法启动任何操作，包括故障转移或故障回复。

此图显示了源区域、目标区域和保管库区域。标记为 Site Recovery 复制的箭头，用于从源 VM 指向目标区域中的 VM。恢复服务保管库中的一个故障已被检测到。标记为故障转移、故障恢复和其他操作的箭头被阻止，但复制仍会继续，该箭头指从服务恢复保管库到站点恢复复制的方向。

区域恢复

您负责为在区域中断期间故障转移的服务器或 VM 启动故障恢复。有关详细信息，请参阅以下文章：

Azure 虚拟机的区域到区域和区域到区域复制：将 Azure 虚拟机回切到主要区域
本地到 Azure 复制：
- 物理到 Azure 复制：Physical-server-to-Azure DR 体系结构
- Hyper-V 到 Azure 复制：Hyper-V 到 Azure DR 体系结构
- VMware 到 Azure 复制：本地灾难恢复（DR）故障转移和故障恢复

针对区域故障进行测试

请务必定期执行 DR 演练，以测试 VM 故障转移和整体响应流程。设计灾难恢复 (DR) 演练，以防止对生产环境造成影响。有关详细信息，请参阅以下文章：

Azure VM 的区域到区域和区域到区域复制：为 Azure VM 运行 DR 演练
本地到 Azure 复制：
- 物理到 Azure 复制：运行到 Azure 的 DR 演练
- Hyper-V 到 Azure 复制：在 Azure 上运行 DR 演练
- VMware 到 Azure 复制：运行到 Azure 的 DR 演练

对配置和复制问题的复原能力

DR 解决方案只有在确保其在灾难发生之前能够正常运行时才可靠。监视 Site Recovery 以检测配置错误或 VM 复制运行状况问题等问题。有关详细信息，请参阅 “监视 Site Recovery”。

建议配置 Azure Monitor 警报，以便了解复制运行状况问题。有关详细信息，请参阅 Site Recovery 的内置 Azure Monitor 警报。

服务维护期间的系统弹性能力

Azure会自动管理核心Site Recovery服务的更新和维护。维护操作不会导致停机，也不会中断 VM 和服务器的复制。

但是，你负责将更新应用到 VM 和服务器上的 Site Recovery 组件，包括移动代理（如果需要）。

重要

强烈建议为代理启用自动更新。如果代理版本落后于 4 个以上版本，则会关闭复制，工作负荷的可恢复性会受到影响。

有关详细信息，请参阅 Site Recovery 中的服务更新。

服务级别协议

Azure服务的服务级别协议（SLA）描述了每个服务的预期可用性以及解决方案必须满足的条件，以实现该可用性预期。有关详细信息，请参阅 SLa for 联机服务。

对于 Site Recovery，单独的 SLA 涵盖：

服务可用性，这意味着 Site Recovery 可用于故障转移受保护的实例。受保护的实例是复制到辅助位置的 VM 或物理服务器。若要符合此 SLA 的条件，必须至少每 30 分钟重试失败的故障转移尝试。
恢复时间目标（RTO）是从触发故障转移（或脚本触发故障转移）到目标虚拟机开始运行的时间。这一次不包括手动操作或脚本执行。

SLA 仅在次要区域具有足够的计算容量时提供服务额度。

关于 Site Recovery
Azure 中的可靠性

Last updated on 2026-06-29