对 Azure Site Recovery 进行监视和故障排除

本文介绍如何使用 Azure Site Recovery 中的内置监视功能进行监视和故障排除。 了解如何:

  • 使用 Azure Site Recovery 仪表板(保管库概述页)
  • 监视和排查复制问题
  • 监视 Azure Site Recovery 作业/操作
  • 订阅电子邮件通知

使用 Azure Site Recovery 仪表板

保管库概述页上的 Azure Site Recovery 仪表板在单一位置包含保管库的所有监视信息。 请先进入保管库仪表板,然后浏览仪表板的各个组成部分,以深入了解更多详细信息。 Azure Site Recovery 仪表板的主要组成部分如下:

1.在 Azure 备份与 Azure Site Recovery 仪表板之间切换

使用概述页顶部的切换开关可以在 Site Recovery 仪表板页与备份之间切换。 选择一次后,系统会记住所做的选择。下一次打开保管库的概述页时,默认会切换到选择的视图。 选择“Site Recovery”选项可以查看 Site Recovery 仪表板。

Azure Site Recovery 仪表板页的各个组成部分每隔 10 分钟自动刷新,因此仪表板会反映最新可用信息。

Azure Site Recovery 概述页中的监视功能

2.复制的项

仪表板的“复制的项”部分提供保管库中受保护服务器的复制运行状况概述。

Healthy 针对这些服务器的复制正在正常进行,且未检测到任何错误或警告症状。
警告 针对这些服务器检测到一种或多种警告症状,这些症状可能影响了复制,或指示复制未正常进行。
关键 针对这些服务器检测到一种或多种严重复制错误症状。 这些错误症状通常指示复制处于停滞状态,或者复制进度跟不上这些服务器的数据更改速率。
不适用 目前预期无法复制服务器,例如,服务器已故障转移。

若要查看已按复制运行状况筛选的受保护服务器列表,请单击圆环图标旁边的复制运行状况说明。 单击部分标题旁边的“全部查看”快捷方式链接可以转到保管库的“复制的项”页。 使用“全部查看”链接可以查看保管库中所有服务器的列表。

3.故障转移测试成功

仪表板的“故障转移测试成功”部分根据测试故障转移的状态提供保管库中虚拟机的细分。

建议的测试 自进入受保护状态以来未成功执行测试故障转移的虚拟机。
已成功执行 已成功执行一次或多次测试故障转移的虚拟机。
不适用 目前不符合测试故障转移条件的虚拟机。 示例包括:已故障转移的服务器、正在进行初始复制的服务器、正在进行故障转移的服务器、已开始执行测试故障转移的服务器。

单击圆环图标旁边的测试故障转移状态可以基于测试故障转移的状态查看受保护服务器的列表。

Important

建议的最佳做法是至少每隔六个月对受保护服务器执行测试故障转移一次。 执行测试故障转移是一种非干扰性方式,可在隔离的环境中测试服务器和应用程序的故障转移,并有助于评估业务连续性的准备情况。

仅当测试故障转移操作和清理测试故障转移操作均已成功完成后,对服务器或恢复计划执行的测试故障转移操作才被视为成功。

4.配置问题

“配置问题”部分显示可能影响到成功故障转移虚拟机的问题列表。 此部分中列出的问题类别包括:

  • 缺少配置: 受保护的服务器缺少必要的配置,例如恢复网络或恢复资源组。
  • 缺少资源: 配置的目标/恢复资源未找到,或者不在订阅中。 例如,资源已被删除,或者已迁移到不同的订阅或资源组。 将会监视以下目标/恢复配置的可用性:目标资源组、目标虚拟网络和子网、日志/目标存储帐户、目标可用性集、目标 IP 地址。
  • 订阅配额: 将可用的订阅资源配额余额与故障转移保管库中所有虚拟机所需的配额进行比较。 如果发现可用余额不足,将报告配额余额不足。 将会监视以下 Azure 资源的配额:虚拟机核心计数、虚拟机系列核心计数、网络接口卡 (NIC) 计数。
  • 软件更新: 可用的新软件更新、即将过期的软件版本。

一个默认每隔 12 小时定期运行的验证程序操作将会检测配置问题(但不会检测是否有可用的软件更新)。 单击“配置问题”部分标题旁边的刷新图标可以强制验证程序操作立即运行。

单击相应的链接可以获取有关所列问题及其影响的虚拟机的更多详细信息。 对于影响特定虚拟机的问题,可以单击相应虚拟机的目标配置列下面的“需要关注”链接获取更多详细信息。 详细信息包括有关如何修正检测到的问题的建议。

5.错误摘要

“错误摘要”部分显示目前尚未解决的、可能影响了保管库中服务器的复制的错误症状,以及每种错误影响的实体数目。

可以在错误摘要表中查看处于严重或警告复制运行状态的服务器的复制错误症状。

  • “错误摘要”部分的开头列出了影响本地基础结构组件的错误,例如,未从本地配置服务器、VMM 服务器或 Hyper-V 主机上运行的 Azure Site Recovery 提供程序接收到检测信号
  • 接下来列出影响受保护服务器的复制错误症状。 错误摘要表条目分别按错误严重性的降序以及受影响服务器计数的降序排序。

Note

可能在一台服务器上观测到了多种复制错误症状。 如果一台服务器上出现多种错误症状,每种错误症状会在其影响的服务器列表中计入该服务器。 解决导致错误症状的根本问题后,将会改善复制参数,并从虚拟机中清除该错误。

Tip

参考受影响服务器计数能够很好地了解单一根本问题是否影响了多台服务器。 例如,网络问题可能会影响从本地站点复制到 Azure 的所有服务器。 查看此视图中很快就能知道,解决这一项根本问题就会解决多个服务器的复制。

6.基础结构视图

基础结构视图提供参与复制的基础结构组件的、区分方案的可视表示形式。 它还直观地展示各台服务器之间,以及参与复制的服务器与 Azure 服务之间的连接运行状况。

绿线表示连接正常,包含叠加错误图标的红线表示有一种或多种错误症状影响了相关组件之间的连接。 将鼠标指针悬停在线条中的错误图标上会显示错误和受影响实体的数目。

单击错误图标会显示该错误影响的实体的筛选列表。

Site Recovery 基础结构视图(保管库)

Tip

确保本地基础结构组件(配置服务器、其他进程服务器、正在执行复制的 VMware 虚拟机、Hyper-V 主机、VMM 服务器)运行最新版本的 Azure Site Recovery 软件。 若要使用基础结构视图的所有功能,需要运行 Azure Site Recovery 更新汇总 22 或更高版本

若要使用基础结构视图,请根据源环境选择相应的复制方案(Azure 虚拟机、VMware 虚拟机/物理服务器或 Hyper-V)。 保管库概述页中显示的基础结构视图是保管库的聚合视图。 单击图框可以进一步深入到单个组件。

“复制的项”概述页上显示了对应于单个复制计算机的上下文的基础结构视图。 若要转到复制服务器的概述页,请在保管库菜单中转到“复制的项”,然后选择要查看其详细信息的服务器。

基础结构视图 - 常见问题解答

问: 我为什么看不到 VM 的基础结构视图?
A. 基础结构视图功能仅适用于正在复制到 Azure 的虚拟机。 该功能目前不适用于在本地站点之间复制的虚拟机。

问: 保管库基础结构视图中的虚拟机计数为何与“复制的项”圆环图标中显示的总计数不同?
A. 保管库基础结构视图已根据复制方案划分了范围。 只有参与当前选定复制方案的虚拟机才包含在基础结构视图显示的虚拟机计数中。 另外,对于选定的方案,只有当前配置为复制到 Azure 的虚拟机才包含在基础结构视图显示的虚拟机计数中(例如:已故障转移的虚拟机和复制回到本地站点的虚拟机不会包含在基础结构视图中。)

问: 概述页上的概要抽屈中显示的已复制项计数为何与仪表板上圆环图表中显示的已复制项总计数不同?
A. 只有已完成初始复制的虚拟机才会包含在概要抽屉显示的计数中。 “复制的项”圆环图标中的总数包括保管库中的所有虚拟机,其中包括正在进行初始复制的服务器。

问: 基础结构视图适用于哪些复制方案?
A.

复制方案 VM 状态 基础结构视图适用
在两个本地站点之间复制的虚拟机 -
全部 已故障转移
在两个 Azure 区域之间复制的虚拟机 正在进行初始复制或受保护
复制到 Azure 的 VMware 虚拟机 正在进行初始复制或受保护
复制到 Azure 的 VMware 虚拟机 正在复制回到本地 VMware 站点的已故障转移虚拟机
复制到 Azure 的 Hyper-V 虚拟机 正在进行初始复制或受保护
复制到 Azure 的 Hyper-V 虚拟机 已故障转移/正在故障回复

7.恢复计划

“恢复计划”部分显示保管库中的恢复计划计数。 单击数字可查看恢复计划列表、创建新的恢复计划,或编辑现有的恢复计划。

8.作业

Azure Site Recovery 作业会跟踪 Azure Site Recovery 操作的状态。 Azure Site Recovery 中的大多数操作以异步方式执行,将使用一个跟踪作业来跟踪操作进度。 若要了解如何监视操作状态,请参阅监视 Azure Site Recovery 作业/操作部分。

仪表板的此“作业”部分提供以下信息:

已失败 过去 24 小时内失败的 Azure Site Recovery 作业
正在进行 当前正在进行的 Azure Site Recovery 作业
等待输入 当前已暂停,正在等待用户输入的 Azure Site Recovery 作业。

单击部分标题旁边的“全部查看”快捷方式链接可以转到作业列表页。

监视和排查复制问题

除了保管库仪表板页中提供的信息以外,还可以在虚拟机列表页和虚拟机详细信息页中获取其他详细信息和故障排除信息。 在保管库菜单中选择“复制的项”选项可以查看保管库中受保护虚拟机的列表。 或者,可以单击保管库仪表板页上的任何带对应快捷方式来查看受保护项的筛选列表。

Site Recovery 中“复制的项”列表视图

使用“复制的项”列表页上的筛选器选项可以应用各种筛选器,例如,复制运行状况和复制策略。

使用列选择器选项可以指定要显示的其他列,例如 RPO、目标配置问题和复制错误。 右键单击计算机列表中的特定行,可以针对虚拟机启动操作,或查看影响虚拟机的错误。

若要进一步向下钻取,请单击某个虚拟机将其选中。 这会打开虚拟机详细信息页。 虚拟机详细信息下的概述页包含一个仪表板,可在其中找到与该计算机相关的其他信息。

在复制计算机的概述页上,可以看到:

  • RPO(恢复点目标):虚拟机的当前 RPO,以及上次计算 RPO 的时间。
  • 计算机的最新可用恢复点
  • 如果出现了任何可能会影响计算机故障转移就绪性的配置问题,将在此处列出。 单击相应的链接可以获取更多详细信息。
  • 错误详细信息:当前在计算机上观测到的复制错误症状列表,以及可能的原因和建议的补救方法
  • 事件:影响计算机的最近事件列表,按时间顺序列出。 错误详细信息显示计算机上当前可观测到的错误症状,而事件是可能影响了计算机的各种事件的历史记录,包括以前可能已在计算机上观察到的错误症状。
  • 复制到 Azure 的计算机的基础结构视图

Azure Site Recovery 中复制的项详细信息/概述

页面顶部的操作菜单提供了用于执行各种操作的选项,例如,对虚拟机执行测试故障转移。 使用操作菜单中的错误详细信息按钮可以查看所有尚未解决的错误,包括虚拟机的复制错误、配置问题,以及基于配置最佳做法的警告。

Tip

RPO(恢复点目标)与最新可用恢复点有何不同?

Azure Site Recovery 使用多步骤异步过程将虚拟机复制到 Azure。 在复制的倒数第二步,虚拟机上发生的最近更改将连同元数据一起复制到日志/缓存存储帐户。 将这些更改连同用于标识可恢复点的标记一起写入到目标区域中的存储帐户后,Azure Site Recovery 将获得所需的信息来生成虚拟机的可恢复点。 此时,表示已符合 RPO,可将更改上传到存储帐户。 换而言之,此时虚拟机的 RPO(以时间单位表示)等于从对应于可恢复点的时间戳开始消逝的时间。

在后台运行的 Azure Site Recovery 服务从存储帐户中拾取上传的数据,并将其应用到为虚拟机创建的副本磁盘。 然后,它会生成一个恢复点,并使此恢复点可用于故障转移时的恢复操作。 最新可用恢复点表示与已处理并已应用到副本磁盘的最新恢复点对应的时间戳。

Warning

如果复制源计算机或本地基础结构服务器上的时钟有偏差或者系统时间不正确,则会导致计算出的 RPO 值有偏差。 为确保准确报告 RPO 值,请务必准确设置参与复制的服务器上的系统时钟。

监视 Azure Site Recovery 作业/操作

Azure Site Recovery 以异步方式执行指定的操作。 可以执行的操作示例包括启用复制、创建恢复计划、测试故障转移、更新复制设置,等等。对于每个此类操作,都会创建一个对应的作业用于跟踪和审核该操作。 作业对象包含跟踪操作状态和进度的全部所需信息。 可以通过“作业”页跟踪针对保管库执行的各种 Site Recovery 操作的状态。

若要查看保管库的 Site Recovery 作业,请转列保管库菜单的“监视和报告”部分,然后选择“作业”>“Site Recovery 作业”。 在页面上的作业列表中单击一个作业将其选中,即可获取有关指定作业的更多详细信息。 如果某个作业未成功完成或者出错,可以单击作业详细信息页顶部的错误详细信息,来查看有关错误和可能补救方法的详细信息(也可以通过右键单击失败的作业,从“作业”列表页访问这些信息。)可以使用作业列表页顶部的操作菜单中的筛选器选项根据特定的条件筛选列表,并使用导出按钮将选定作业的详细信息导出到 Excel。 也可以通过 Site Recovery 仪表板页上的快捷方式访问作业列表视图。

对于在 Azure 门户中执行的操作,还可以通过 Azure 门户的通知部分(右上角的钟形图标)跟踪所创建的作业及其当前状态。

订阅电子邮件通知

使用内置的电子邮件通知功能可以订阅接收关键事件的电子邮件通知。 如果已订阅,将会发送以下事件的电子邮件通知:

  • 复制计算机的复制运行状况降级到严重状态。
  • 本地基础结构组件与 Azure Site Recovery 服务之间无连接。 将使用检测信号机制来检测已注册到保管库的本地基础结构组件(例如配置服务器 (VMware) 或 System Center Virtual Machine Manager (Hyper-V))与 Site Recovery 服务之间的连接。
  • 故障转移操作失败(如果发生)。

若要订阅接收 Azure Site Recovery 的电子邮件通知,请转到保管库菜单的“监视和报告”部分,然后:

  1. 选择“警报和事件”>“Site Recovery 事件”。
  2. 在打开的事件页顶部的菜单中选择“电子邮件通知”。
  3. 使用电子邮件通知向导打开或关闭电子邮件通知,并选择通知收件人。 可以指定向所有订阅管理员发送通知,和/或提供要将通知发送到的电子邮件地址列表。