监视 Site Recovery

本文介绍如何使用 Site Recovery 的内置监视功能监视 Azure Site Recovery。 可以监视:

  • 通过 Site Recovery 复制的计算机的运行状况和状态
  • 测试计算机的故障转移状态。
  • 影响配置和复制的问题和错误。
  • 基础结构组件,例如本地服务器。

开始之前

在开始之前,可能需要查看常见监视问题

在仪表板中监视

  1. 在保管库中,选择“概述”。 恢复服务仪表板在单个位置合并了保管库的所有监视信息。 Site Recovery 和 Azure 备份服务都有页面,可在这些页面之间切换。

    Screenshot displays Site Recovery dashboard.

  2. 在该仪表板中,向下钻取到不同的区域。

    Screenshot displays the areas on the dashboard where you can drill down.

  3. 在“复制的项”中,选择“全部查看”可查看保管库中的所有服务器。

  4. 选择每个部分的状态详细信息,以便向下钻取。

  5. 在“基础结构”视图中,按复制的计算机类型将监视信息排序。

监视复制的项

“复制的项”监视保管库中已启用复制的所有计算机的运行状况。

State 详细信息
正常 复制正常进行。 未检测到任何错误或警告症状。
警告 检测到一个或多个可能影响复制的警告症状。
严重 检测到一个或多个严重复制错误症状。

这些错误症状通常指示复制处于停滞状态,或者复制进度跟不上数据更改速率。
不适用 目前预期服务器无法复制。 这可能包括已故障转移的计算机。

监视测试故障转移

在“故障转移测试成功”中,监视保管库中计算机的故障转移状态。

  • 我们建议每隔六个月在复制的计算机上至少运行测试故障转移一次。 这样,便可以在不中断生产环境的情况下,检查故障转移是否按预期工作。
  • 只有在成功完成故障转移以及故障转移后的清理过程之后,才将测试故障转移视为成功。
State 详细信息
建议的测试 自启用保护以来未进行测试故障转移的计算机。
已成功执行 已成功完成一次或多次测试故障转移的计算机。
不适用 目前不符合测试故障转移条件的计算机。 例如,已故障转移的计算机、正在进行初始复制/测试故障转移/故障转移的计算机。

监视配置问题

在“配置问题”中监视任何可能影响你能否成功进行故障转移的问题。

  • 一个默认每隔 12 小时定期运行的验证程序操作将会检测配置问题(但不会检测软件更新可用性)。 可以强制验证程序操作立即运行,方法是选择“配置问题”部分标题旁边的刷新图标。
  • 选择相应的链接获取更多详细信息。 对于影响特定计算机的问题,请选择“目标配置”列中的“需要关注”。 详细信息包括补救措施的建议。
State 详细信息
缺少配置 缺少所需的设置,例如恢复网络或资源组。
缺少资源 指定的资源未找到,或者在订阅中不可用。 例如,已删除或迁移了资源。 受监视的资源包括目标资源组、目标 VNet/子网、日志/目标存储帐户、目标可用性集、目标 IP 地址。
订阅配额 将可用订阅资源配额的余量,与故障转移保管库中所有计算机所需的余量进行比较。

如果资源不足,则报告不足的配额余量。

配额是要监视的 VM 核心计数、VM 系列核心计数和网络接口卡 (NIC) 计数。
软件更新 新软件更新的可用性,以及有关即将过期的软件版本的信息。

监视错误

在“错误摘要”中,监视目前尚未解决的、可能影响保管库中服务器的复制的错误症状,以及监视受影响的计算机数目。

  • 该部分的开头显示影响本地基础结构组件的错误。 例如,未从本地配置服务器或 Hyper-V 主机上的 Azure Site Recovery 提供程序收到检测信号。
  • 接下来显示影响已复制的服务器的复制错误症状。
  • 表条目分别按错误严重性的降序以及受影响计算机数的降序排序。
  • 参考受影响服务器数能够很好地了解单一根本问题是否影响了多台计算机。 例如,网络问题可能会影响复制到 Azure 的所有计算机。
  • 单个服务器上可能出现多个复制错误。 在这种情况下,每个错误症状会将该服务器计入到它所影响的服务器列表中。 解决问题后,复制参数将得到改善,而该错误将从计算机中清除。

监视基础架构。

在“基础结构”视图中,监视参与复制的基础结构组件,以及服务器与 Azure 服务之间的连接运行状况。

  • 绿线表示连接正常。

  • 带有叠加错误图标的红线指示存在一个或多个影响连接的错误症状。

  • 将鼠标指针悬停在错误图标上会显示错误和受影响实体的数量,然后选择受影响实体筛选列表的图标。

    Screenshot displays Site Recovery infrastructure view (vault).

有关监视基础结构的提示

  • 确保本地基础结构组件(配置服务器、进程服务器、VMM 服务器、Hyper-V 主机、VMware 计算机)运行最新版本的 Site Recovery 提供程序和/或代理。

  • 若要使用基础结构视图的所有功能,应运行这些组件的更新汇总 22

  • 若要使用基础结构视图,请选择适用于环境的复制方案。 可以在视图中向下钻取以查看更多详细信息。 下表显示了代表的方案。

    方案 State 视图可用?
    在本地站点之间复制 所有状态
    Azure 区域之间的 Azure VM 复制 已启用复制/初始复制正在进行
    Azure 区域之间的 Azure VM 复制 已故障转移/故障回复
    从 VMware 复制到 Azure 已启用复制/初始复制正在进行
    从 VMware 复制到 Azure 已故障转移/故障回复
    从 Hyper-V 复制到 Azure 已故障转移/故障回复
  • 若要查看单个复制计算机的基础结构视图,请在保管库菜单中选择“复制的项”,然后选择一个服务器。

监视恢复计划

在“恢复计划”中,监视计划数目、创建新计划,以及修改现有计划。

监视作业

在“作业”中,监视 Site Recovery 操作的状态。

  • Azure Site Recovery 中的大多数操作以异步方式执行,将创建并使用一个跟踪作业来跟踪操作进度。
  • 作业对象包含跟踪操作状态和进度的全部所需信息。

按如下所述监视作业:

  1. 在仪表板 >“作业”部分,可以看到过去 24 小时内已完成的、正在进行的或等待输入的作业的摘要。 可以选择任一状态获取相关作业的详细信息。

  2. 选择“全部查看”可查看过去 24 小时内的所有作业。

    注意

    还可以从保管库菜单 >“Site Recovery 作业”访问作业信息。

  3. “Site Recovery 作业”列表中显示了作业列表。 在顶部菜单中,可以获取特定作业的错误详细信息、根据特定的条件筛选作业列表,以及将选定作业的详细信息导出到 Excel。

  4. 选择某个作业可深入查看更多信息。

监视虚拟机

  1. 在“复制的项”中,获取复制的计算机的列表。

    Screenshot displays Site Recovery replicated items list view.

  2. 可以查看和筛选信息。 在顶部的操作菜单中,可以针对特定的计算机执行操作,包括运行测试故障转移,或查看特定的错误。

  3. 选择“列”可显示其他列,例如,显示 RPO、目标配置问题和复制错误。

  4. 选择“筛选器”可以根据复制运行状况或特定复制策略等特定参数来查看信息。

  5. 选择某个计算机可以启动操作,例如,执行测试故障转移,或查看与它关联的特定错误详细信息。

  6. 选择某个计算机可以深入查看其更多详细信息。 详细信息包括:

    • 复制信息:计算机的当前状态和运行状况。
    • RPO(恢复点目标):虚拟机的当前 RPO,以及上次计算 RPO 的时间。
    • 恢复点:计算机的最新可用恢复点。
    • 故障转移就绪性:指示是否对该计算机运行了测试故障转移、计算机上运行的代理版本(适用于运行移动服务的计算机)和任何配置问题。
    • 错误:列出当前在计算机上观察到的复制错误症状,以及可能的原因/措施。
    • 事件:影响计算机的最近事件列表,按时间顺序列出。 错误详细信息显示当前可观测到的错误症状,而事件是影响了计算机的问题的历史记录。
    • 基础结构视图:显示将计算机复制到 Azure 时的基础结构状态。

    Screenshot displays Site Recovery virtual machines items list view.

订阅电子邮件通知

可以订阅接收以下关键事件的电子邮件通知:

  • 复制的计算机的严重状态。
  • 本地基础结构组件与 Site Recovery 服务之间无连接。 使用检测信号机制来检测 Site Recovery 与注册到保管库中的本地服务器之间的连接。
  • 故障转移失败。

订阅方式如下:

在保管库“监视”部分,选择“站点恢复事件”。>

  1. 选择“电子邮件通知”

  2. 在“电子邮件通知”中,启用通知并指定收件人。 可向所有订阅管理员发送通知,并选择性地发送到特定的电子邮件地址。

    Screenshot displays Email notifications view.

针对 Azure Site Recovery 的内置 Azure Monitor 警报(预览版)

Azure Site Recovery 还通过 Azure Monitor 提供默认警报,使你可以在不同的 Azure 服务之间获得一致的警报管理体验。 使用基于 Azure Monitor 的警报,可以将警报路由到 Azure Monitor 支持的任何通知通道,例如电子邮件、Webhook、逻辑应用等。 还可以使用 Azure Monitor 提供的其他警报管理功能,例如,在计划内维护时段内取消通知。

启用内置 Azure Monitor 警报

若要针对特定订阅为 Azure Site Recovery 启用内置 Azure Monitor 警报,请导航到 Azure 门户中的“预览功能”,并为所选订阅注册功能标志 EnableAzureSiteRecoveryAlertToAzureMonitor。

注意

建议在测试功能之前等待 24 小时让注册生效。

Screenshot displays feature flag to register for alerting feature.

警报方案

注册此功能后,每当发生以下任何关键事件时,Azure Site Recovery 就会发送默认警报(通过 Azure Monitor 显示):

  • 为 Azure VM、Hyper-V 和 VMware 复制启用灾难恢复故障警报。
  • Azure VM、Hyper-V 和 VMware 复制的复制健康状况关键警报。
  • Azure VM 和 Hyper-V 复制的 Azure Site Recovery 代理版本过期警报。
  • Hyper-V 复制的 Azure Site Recovery 代理无法访问的警报。
  • Azure VM、Hyper-V 和 VMware 复制的故障转移故障警报。
  • Azure VM 复制的自动认证过期警报。

若要使用 Azure Site Recovery 测试 VM 的警报是否有效,可以禁用缓存存储帐户的公共网络访问,以便生成复制健康状况转换为关键警报。 警报会在默认情况下生成,而无需进行规则配置。 但是,若要为这些生成的警报启用通知(例如电子邮件通知),必须创建警报处理规则,如以下部分所述。

在 Azure Monitor 中查看生成的 Azure Site Recovery 警报

生成警报后,可以从 Azure Monitor 门户查看和管理警报。 执行以下步骤:

  1. Azure 门户上,转到 Azure Monitor>警报
  2. 设置监视服务 = Azure Site Recovery 的筛选器,以查看特定于 Azure Site Recovery 的警报。 还可以自定义其他筛选器的值,以查看特定时间范围(长达 30 天)的保管库、订阅、严重性和警报状态(用户响应)的警报。
  3. 选择感兴趣的任何警报以查看更多详细信息。 例如,受影响的 VM、可能的原因、建议的操作等。
  4. 缓解事件后,可以将其状态修改为已关闭已确认

Screenshot displays Viewing alerts via Azure Monitor in portal.

在恢复服务保管库中查看生成的 Azure Site Recovery 警报

按照以下步骤通过保管库体验查看为特定保管库生成的警报:

  1. Azure 门户上,转到所使用的恢复服务保管库。
  2. 选择警报部分并筛选出监视服务 = Azure Site Recovery 的内容,以查看特定于 Azure Site Recovery 的警报。 可以自定义其他筛选器的值,以查看特定时间范围(长达 30 天)的保管库、订阅、严重性和警报状态(用户响应)的警报。
  3. 选择感兴趣的任何警报以查看更多详细信息,例如受影响的 VM、可能的原因、建议的操作等。
  4. 缓解事件后,可以将其状态修改为已关闭已确认

Screenshot displays alerts via Recovery Services vault in portal.

配置警报的电子邮件通知

若要为 Azure Site Recovery 的内置 Azure Monitor 警报配置电子邮件通知,必须在 Azure Monitor 中创建警报处理规则。 警报处理规则将指定应发送到特定通知通道(操作组)的警报。

按照以下步骤创建警报处理规则:

  1. 转到 Azure Monitor>警报,然后在顶部窗格中选择警报处理规则

    Screenshot displays alert processing rules option in Azure Monitor.

  2. 选择创建

    Screenshot displays create new alert processing rule.

  3. 在警报处理规则的范围>选择范围下,可以为订阅中的所有资源应用规则。 可以通过应用筛选器对范围进行其他自定义。 例如,为特定严重性的警报生成通知。

    Screenshot displays select scope for the alert processing rule.

  4. 规则设置中,选择应用操作组创建操作组(或使用现有操作组)。 操作组是警报通知应发送的目标位置。 例如,一个电子邮件地址。

    Screenshot displays the Create new action group option.

  5. 若要创建操作组,在“基本信息”选项卡上,选择操作组的名称,以及要在其下创建该操作组的订阅和资源组

    Screenshot displays Configure notifications by creating action group.

  6. 通知选项卡下,选择通知电子邮件/短信/推送/语音的目标位置,并根据需要输入收件人的电子邮件 ID 和其他详细信息。

    Screenshot displays the select required notification channel option.

  7. 选择查看+创建>创建以部署操作组。 操作组的创建将引导你返回到警报处理规则的创建。

    注意

    创建的操作组显示在规则设置页中。

  8. 计划选项卡中,选择始终

    Screenshot displays Scheduling options for alert processing rule.

  9. 详细信息下,指定正在创建的警报处理规则的订阅、资源组和名称。

    Screenshot displays Save the alert processing rule in any subscription.

  10. 根据需要添加标记,然后选择查看+创建>创建。 警报处理规则将在几分钟后处于活动状态。

将通知配置为非电子邮件通道

使用 Azure Monitor 操作组,可以将警报路由到其他通知通道,例如 Webhook、逻辑应用、函数等。 详细了解 Azure Monitor 中受支持的操作组

通过编程接口配置通知

可以使用 Azure Monitor 支持的以下接口管理操作组和警报处理规则:

在计划内维护时段内抑制通知

在某些情况下(例如维护时段),在此期间,Azure Site Recovery 操作预期会失败。 如果要求在此类时间段内取消通知,则可以设置抑制警报处理规则以在特定时间段内运行。

若要创建抑制警报处理规则,请遵循相同的过程创建前面部分所述的基于通知的警报处理规则,但存在以下差异:

  1. 在“规则设置”下,选择“抑制通知”。 如果在同一范围上同时应用了抑制警报处理规则和操作组警报处理规则,则抑制规则优先。

    Screenshot displays Enable notification suppression.

  2. 计划下,输入希望取消警报的时间范围。

    Screenshot displays Schedule time window for notification suppression.

定价

使用内置的 Azure Monitor 警报时,默认情况下会生成关键操作或故障警报。 可以在门户中或通过非门户界面查看这些警报,无需额外付费。 但是,若要将这些警报路由到通知通道(例如电子邮件),则对于超出免费层(每月 1000 封电子邮件)的通知,将产生少量通知费用。 详细了解 Azure Monitor 定价

后续步骤

了解如何使用 Azure Monitor 监视 Site Recovery。