Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Azure Site Recovery是虚拟机的托管复制和故障转移服务,旨在使工作负荷在中断期间保持可用。 它持续将工作负荷从主站点复制到辅助位置,确保数据丢失和停机时间最小。 发生计划内维护或意外中断时,它会协调故障转移和故障回复进程。 此服务支持本地环境和Azure VM 的灾难恢复,帮助组织保持业务连续性。
使用 Azure 时,可靠性是共同的责任。 Azure提供了一系列功能来支持复原和恢复。 你负责了解这些功能如何在你使用的所有服务中工作,并选择满足业务目标和运行时间目标所需的功能。
本文介绍如何使Azure Site Recovery应对各种潜在中断和问题,包括暂时性故障、可用性区域中断和区域中断。 它还重点介绍了有关Microsoft Site Recovery服务级别协议(SLA)的一些关键信息。
注释
本文档介绍了Microsoft Site Recovery服务本身如何具备或能够增强应对各种问题的能力。 它不说明如何使用Azure Site Recovery来保护 VM 或其他资产。 若要了解如何使用Azure Site Recovery,请参阅 About Site Recovery。
提高可靠性的生产部署建议
将Site Recovery用于生产工作负荷时,建议执行以下操作:
- 在目标区域中部署您的恢复服务保管库以便进行复制。
- 若要Azure Azure灾难恢复,请对数据更改率较高的 VM 使用 High Churn。 高变动率支持可改进恢复点目标(RPO),并为许多大规模数据库工作负荷启用复制。
- 若要实现 Azure 到 Azure 的灾难恢复,请将缓存存储帐户配置为使用区域冗余存储(ZRS)。
- 在灾难恢复(DR)演练中,应定期执行故障转移测试。 DR 演练应每季度运行一次或每半年一次,以验证复制和故障转移过程是否正常。
- 使用 按需容量预留 来确保在目标区域中计算资源可用于故障转移。
- 为移动代理启用自动更新。
- 监视复制的运行状况,并配置警报,以便在出现问题时收到通知。
可靠性体系结构概述
使用 Azure Site Recovery 时,请定义一个 source 和 target,表示复制的 VM:
- source可以是Azure VM,也可以是另一个受支持源的 VM 或服务器,包括本地物理服务器、VMware VM 和Hyper-V VM。
- target始终是Azure VM。 对于 Azure 到 Azure VM 复制,目标可以是源 VM 所在的不同区域或可用区。
你负责部署和配置其他资源,包括:
Recovery Services 保管库 是 Site Recovery 用于存储复制配置设置的地方。 保管库不会存储复制的数据。 保管库的冗余配置对于Site Recovery并不重要,但如果对Azure 备份使用相同的保管库,则这一点很重要。
保管库可以包括其他配置,例如:
- 复制策略,用于配置快照频率和保留长度。
- 恢复计划,它协调设备故障转移的顺序,并且可以包括脚本和人工操作。 恢复计划对于需要以协调方式进行故障转移的多层工作负载(例如应用程序层和数据库层)特别有用。
对于 Azure 到 Azure 的复制,使用的 缓存存储帐户会先在其所在区域存储源数据的副本,然后再复制到目标。 缓存存储帐户的冗余配置可能会影响可用性区域中断期间的可靠性。
注释
本指南重点介绍基于Azure的Azure Site Recovery组件及其复制关系的可靠性。 如果从本地环境或其他云提供商复制数据或 VM,则还应考虑Azure之外的组件的可靠性。
有关部署的组件的详细信息,请参阅:
核心Site Recovery服务在Azure管理的基础结构上运行。 本文档将这些组件统称为 core Site Recovery 服务。
暂时性故障的复原能力
暂时性故障是指组件发生短暂的间歇性故障。 这些故障经常出现在云之类的分布式环境中,在运营过程中比较常见。 暂时性故障在短时间内自行纠正。
Site Recovery通过重试其操作自动处理在复制过程中发生的暂时性故障。 无需为Azure Site Recovery配置暂时性故障处理。
对区域范围的故障的复原能力
对于 Azure 到 Azure 的复制,Site Recovery(站点恢复)旨在通过将虚拟机故障转移到健康的目标区域来提供区域故障的复原能力。 有关详细信息,请参阅 将 VM Azure 复制到另一个Azure区域。
注意事项
Vault region:恢复服务保管库部署到你选择的特定Azure区域中。 保管库的区域是一个重要决策。 在保管库所在区域发生故障期间,复制可以继续进行。 但是,Site Recovery 管理操作(包括故障转移和故障回复)在区域恢复之前不可用。
在目标区域中部署保管库有助于确保源区域出现中断时故障转移和恢复操作仍然可访问,并防止第三区域的中断影响故障转移和恢复操作。
注释
如果您的保管库位于您通常用作目标区域的地区,那么在故障转移和重新建立复制后,保管库现在将位于您新的源区域。 如果该区域随后遇到问题,可能要等到两个区域都恢复正常后才能执行故障恢复。
容量预留: 你负责验证目标区域是否支持所需的 VM 类型,以及它是否具有工作负荷的可用容量。 建议使用按需容量预留服务,以确保在故障转移时,计算资源能够用于您的工作负载。
配置多区域支持
恢复服务保管库: 需要选择保管库的区域。 有关详细信息,请参阅前面的 注意事项 部分。
尽管恢复服务保管库允许配置冗余级别,但此配置设置不用于Site Recovery。 使用Site Recovery时,无需为保管库配置异地冗余。
缓存存储帐户: 由于缓存存储帐户仅在复制数据之前用作临时位置,因此不应将其配置为使用 GRS。
区域故障期间的行为
区域故障期间Site Recovery核心服务的特定行为取决于哪些区域遇到故障:
源区域中的故障: 对于Azure之间的复制,当源区域不可用时,可以触发故障转移。
由于源区域不可用,因此复制将停止,直到源区域中的 VM 正常运行。
目标区域故障:由于目标区域不可用,因此复制会停止,在区域恢复正常之前,无法执行到目标的故障转移。
在包含保管库的区域中发生故障:如果保管库被部署到第三个区域(而不是源或目标区域),并且该区域遇到故障,Site Recovery 将继续复制数据。 在保管库健康之前,无法启动任何操作,包括故障转移或故障回复。
区域恢复
你负责为在区域中断期间发生故障转移的任何服务器或 VM 发起故障回退。 有关详细信息,请参见:
Azure 虚拟机的区域到区域和区域到区域复制:将 Azure 虚拟机回切到主要区域
本地环境到 Azure 复制:
- 物理到Azure的复制:物理服务器到Azure的灾难恢复架构
- Hyper-V到Azure复制:Hyper-V到Azure灾难恢复体系结构
- VMware到Azure复制:关于本地灾难恢复故障转移/故障恢复
针对区域故障进行测试
请务必定期执行灾难恢复演练,该演练应测试虚拟机故障转移以及整体响应流程。 计划你的 DR 演练以避免对生产环境造成影响。 有关详细信息,请参见:
Azure 虚拟机的区域到区域和地区到地区复制:运行 Azure 虚拟机的灾难恢复演练
本地环境到 Azure 的复制:
- 从物理基础设施复制到 Azure:运行到 Azure 的测试故障转移(灾难恢复演练)
- Hyper-V 到 Azure 复制:在 Azure 上运行灾难恢复演练
- VMware到Azure复制:运行灾难恢复演练到Azure
对配置和复制问题的复原能力
仅当在灾难发生前确认灾难恢复解决方案能够正常运行时,该方案才可靠。 这意味着,如果出现任何问题(例如配置问题或 VM 复制运行状况问题),监视Azure Site Recovery非常重要。 有关详细信息,请参阅 Monitor Azure Site Recovery。
建议配置Azure Monitor警报,以便了解复制运行状况的问题。 有关详细信息,请参阅内置 Azure Monitor 警报的 Azure Site Recovery。
服务维护期间的系统弹性能力
Azure会自动管理核心Site Recovery服务的更新和维护。 维护操作不会导致停机,也不会中断 VM 和服务器的复制。
但是,您负责将更新应用到您的虚拟机(VM)和服务器上的站点恢复组件,包括在需要时应用到移动代理。
重要
强烈建议为代理启用自动更新。 如果代理版本落后于 4 个以上版本,则会禁用复制,并且工作负荷的可恢复性会受到影响。
有关详细信息,请参阅 Site Recovery 中的服务更新。
服务级别协议
Azure服务的服务级别协议(SLA)描述了每个服务的预期可用性以及解决方案必须满足的条件,以实现该可用性预期。 有关详细信息,请参阅 SLa for 联机服务。
对于Azure Site Recovery,有单独的 SLA 涵盖以下内容:
- 服务可用性,这意味着Site Recovery服务可用于故障转移受保护的实例。 受保护的实例是复制到辅助位置的 VM 或物理服务器。 若要符合此 SLA 的条件,必须至少每 30 分钟重试失败的故障转移尝试。
- 恢复时间目标(RTO),是指从您(或您编写的脚本)触发故障转移到目标 VM 正在运行所需的时间长度。 这一次排除任何手动作或脚本执行。
SLA 仅在次要区域中有足够的可用容量时提供服务额度。
相关内容
- About Azure Site Recovery
Azure 中的可靠性