使用 Azure 备份指标监视备份的健康状况(预览版)

Azure 备份通过 Azure Monitor 提供一组内置指标,用于监视备份的健康状况。 你还可以在 Azure 备份中配置在指标超过定义的阈值时触发的警报规则。

Azure 备份提供以下主要功能:

  • 能够查看与备份项的备份和还原健康状况相关的现成指标以及相关趋势
  • 能够根据这些指标编写自定义预警规则,以有效地监视备份项的健康状况
  • 能够将触发的指标警报路由到 Azure Monitor支持的不同通知通道,例如电子邮件、ITSM、Webhook、逻辑应用等。

深入了解 Azure Monitor 指标

支持的方案

  • 针对以下工作负荷类型支持内置指标:

    • Azure VM,Azure VM 中的 SQL 数据库
    • Azure VM 中的 SAP HANA 数据库
    • Azure 文件
    • Azure Blob。

    目前不支持 HANA 实例工作负荷类型的指标。

  • 可以同时查看每个区域和订阅中所有恢复服务保管库的指标。 目前不支持在 Azure 门户中查看更大范围的指标。 同样的限制也适用于配置指标警报规则。

支持的内置指标

目前,Azure 备份支持以下指标:

  • 备份健康状况事件:此指标的值表示与备份作业健康状况相关的健康状况事件计数,这些事件在特定时间内为保管库触发。 备份作业完成后,Azure 备份服务会创建备份健康状况事件。 根据作业状态(例如成功或失败),与事件关联的维度也有所不同。

  • 还原健康状况事件:此指标的值表示与还原作业健康状况相关的健康状况事件计数,这些事件在特定时间内为保管库触发。 还原作业完成后,Azure 备份服务会创建还原健康状况事件。 根据作业状态(例如成功或失败),与事件关联的维度也有所不同。

注意

我们仅针对 Azure Blob 工作负载支持还原健康状况事件,因为备份是连续的,此处没有备份作业的概念。

默认情况下,在保管库级别显示计数。 若要查看特定备份项和作业状态的计数,可以按照任何支持的维度筛选度量值。

下表列出了备份健康状况事件和还原健康状况事件指标支持的维度:

维度名称 描述
数据源 ID 与作业关联的数据源的唯一 ID。

  • 对于 Azure 资源,例如 VM 和文件,包含资源的 Azure 资源管理器 ID (ARM ID)。
    例如: /subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.Compute/virtualMachines/testVM


  • 对于 VM 内的 SQL/HANA 数据库,包含 VM 的 ARM ID,后跟数据库的详细信息。
    例如: /subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.Compute/virtualMachines/testVM/providers/Microsoft.RecoveryServices/backupProtectedItem/SQLDataBase;mssqlserver;msdb


对于 SQL AG 数据库备份,“数据源 ID”字段为空,因为在这种情况下没有数据源 (VM)。 要查看 AG 内特定数据库的指标,请使用“备份实例 ID”字段。
数据源类型 与作业关联的数据源的类型。 以下是支持的数据源类型:

  • Microsoft.Compute/virtualMachines(Azure 虚拟机)


  • Microsoft.Storage/storageAccounts/fileServices/shares (Azure Files)


  • SQLDatabase(Azure VM 中的 SQL)


  • SAPHANADataBase(Azure VM 中的 SAP HANA)
备份实例 ID 与作业关联的备份实例的 ARM ID。

例如: /subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.RecoveryServices/vaults/testVault/backupFabrics/Azure/protectionContainers/IaasVMContainer;iaasvmcontainerv2;testRG;testVM/protectedItems/VM;iaasvmcontainerv2;testRG;testVM
备份实例名称 备份实例的友好名称,便于用户阅读。 格式为 {protectedContainerName};{backupItemFriendlyName}

例如: testStorageAccount;testFileShare
运行状况状态 表示作业完成后备份项目的健康状况。 可以采用以下值之一: “正常”、“瞬时不正常”、“持续不正常”、“瞬时降级”、“持续降级”。

  • 备份/恢复作业成功后,会出现状态为“正常”的健康状况事件。


  • “不正常”表示服务错误导致作业失败,“降级”表示用户错误导致失败。


  • 当同一备份项重复发生相同错误时,状态将从“瞬时不正常/降级”变为“持续不正常/降级”。

监视方案

在 Azure 门户中查看指标

若要查看 Azure 门户中的指标,请遵循以下步骤:

  1. 在 Azure 门户中,转到“备份中心”,然后单击菜单中的“指标”。

    显示在备份中心选择指标的屏幕截图。

  2. 选择要查看其指标的一个或一组保管库。

    目前,你可以查看指标的最大范围是:特定订阅和区域中的所有恢复服务保管库。 例如,中国北部的 TestSubscription1 中的所有恢复服务保管库。

  3. 选择一个指标以查看备份健康状况事件或还原健康状况事件。

    这将呈现一个图表,显示保管库的健康状况事件计数。 可以使用屏幕顶部的筛选器来调整时间范围和聚合粒度。

    显示选择指标的过程的屏幕截图。

  4. 若要按不同的维度筛选指标,请单击“添加筛选器”按钮,然后选择相关维度值。

    • 例如,如果只想查看 Azure VM 备份的健康状况事件计数,则添加筛选器 Datasource Type = Microsoft.Compute/virtualMachines
    • 要查看保管库内特定数据源或备份实例的健康状况事件,则使用数据源 ID/备份实例 ID 筛选器。
    • 要仅查看失败备份的健康状况事件,请使用 HealthStatus 筛选器,并选择与不正常或降级健康状况对应的值。

    显示按不同维度筛选指标的过程的屏幕截图。

配置有关指标的警报和通知

要为指标配置警报和通知,请按照以下步骤操作:

  1. 单击指标图表顶部的“新建警报规则”。

  2. 选择要为其创建警报的范围。

    范围限制与“查看指标”部分中描述的限制相同。

  3. 选择触发警报的条件。

    默认情况下,系统会根据指标图表中的选择而预先填充某些字段。 你可以根据需要编辑参数。 要为保管库中的每个数据源生成单独的警报,请使用指标警报规则中的维度选择。 下面是一些场景:

    • 对每个数据源的失败备份作业发出警报:

      警报规则:如果以下项的备份运行状况事件在过去 24 小时内 > 0,则会触发警报

      • Dimensions["HealthStatus"]= “持续不正常/瞬时不正常”
      • Dimensions["DatasourceId"]= “所有当前值和未来值”
    • 如果当天保管库中的所有备份均成功,则发出警报:

      警报规则:如果以下项的备份运行状况事件在过去 24 小时内 < 1,则会触发警报

      • Dimensions["HealthStatus"]="持续不正常/瞬时不正常/持续降级/瞬时降级"

    显示选择应该触发警报的条件的选项的屏幕截图。

    注意

    如果您选择更多维度作为警报规则条件的一部分,开销会增加(与维度值可能的唯一组合的数量成正比)。 选择更多维度可获得有关触发警报的更多上下文。

  4. 要使用操作组为这些警报配置通知,请将操作组配置为警报规则的一部分,或创建单独的操作规则。

    我们支持各种通知通道,例如电子邮件、ITSM、webhook、逻辑应用、短信。 详细了解操作组

    显示使用操作组为这些警报配置通知的过程的屏幕截图。

  5. 配置自动解决行为 - 可以根据需要将指标警报配置为无状态或有状态。

    • 要在每个作业失败时生成警报,无论失败是否由于相同的根本原因(无状态行为)造成,请在警报规则中取消选中“自动解决警报”。
    • 或者,要将警报配置为有状态,请选中上述同一复选框。 因此,当在范围内触发指标警报时,另一次失败不会创建新的指标警报。 如果警报生成条件在连续三次求值周期内求值为 false,警报将自动解决。 如果条件再次求值为 true,则会生成新警报。

详细了解 Azure Monitor 指标警报的有状态和无状态行为

显示配置自动解析行为的过程的屏幕截图。

管理警报

若要查看触发的指标警报,请执行以下步骤:

  1. 转到“备份中心”>“警报”。

  2. 按照“信号类型” = “指标”和“警报类型” = “已配置”进行筛选。

  3. 单击一条警报可查看有关该警报的更多详细信息并可更改其状态。

    显示查看触发的指标警报的过程的屏幕截图。

注意

警报有两个字段:监视条件(已触发/已解决)和“警报状态(新/已确认/已关闭)”。

  • 警报状态:可以编辑此字段(如下图所示)。
  • 监视条件:无法编辑此字段。 此字段更多用于服务本身解决警报的场景。 例如,指标警报中的自动解决行为使用“监视条件”字段来解决警报。

数据源警报和全局警报

根据警报规则配置,触发的警报显示在备份中心的“数据源警报”部分或“全局警报”部分下:

  • 如果警报具有与其关联的数据源 ID 维度,则触发的警报会显示在“数据源警报”下。
  • 如果警报没有关联的数据源 ID 维度,则触发的警报将显示在“全局警报”下,因为不存在将警报与特定数据源关联的信息。

在此处了解有关数据源和全局警报的更多信息

注意

目前,对于 Blob 还原警报,仅在创建警报规则时同时选择 datasourceId 和 datasourceType 维度时,警报才会显示在数据源警报下。 如果未选择任何维度,警报将显示在全局警报下。

以编程方式访问指标

可以使用不同的编程客户端(例如 PowerShell、CLI 或 REST API)来访问指标功能。 有关更多详细信息,请参阅 Azure Monitor REST API 文档

示例警报方案

如果在过去 24 小时内保管库的所有触发的备份都成功,则会触发单个警报

预警规则:在过去 24 小时内,如果备份运行状况事件 < 1,则触发警报:

Dimensions["HealthStatus"] != "Healthy"

在每个失败的备份作业后触发警报

预警规则:在过去 5 分钟内,如果备份运行状况事件 > 0,则触发警报:

  • Dimensions["HealthStatus"]!= "Healthy"
  • Dimensions["DatasourceId"]=“所有当前值和未来值”

如果过去 24 小时内同一个项出现连续的备份失败,则触发警报

预警规则:在过去 24 小时内,如果备份运行状况事件 > 1,则触发警报:

  • Dimensions["HealthStatus"]!= "Healthy"
  • Dimensions["DatasourceId"]=“所有当前值和未来值”

如果在过去 24 小时内没有为项执行备份作业,则会触发警报

警报规则:如果以下项的备份运行状况事件在过去 24 小时内 < 1,则会触发警报

Dimensions["DatasourceId"]=“所有当前值和未来值”

后续步骤