创建资源健康警报

资源健康警报是一个主动通知,会在单个 Azure 资源的健康状态发生变化时告知您。 可以在 Health alerts 窗格中查看 资源运行状况 警报。 有关详细信息,请参阅 资源运行状况 警报

与涵盖平台范围的问题的服务运行状况警报不同,资源运行状况警报特定于资源,即使没有更广泛的Azure中断,也能检测问题。

当Azure资源出现运行状况更改(例如变得不可用或降级)时,资源运行状况警报会通知你。 这些警报可帮助你随时了解情况并快速响应影响工作负荷的服务问题。

可以创建资源运行状况警报以获取以下信息:

  • 立即采取行动:在影响客户之前应对中断。
  • 合规性:因此可以跟踪服务级别协议(SLA)违规和恢复时间。
  • 运营洞察:了解问题是源自平台还是用户。
  • 自动化:通过操作组触发工作流(例如,自动缩放、故障转移)。

本文介绍如何从服务运行状况门户创建和配置Azure 资源运行状况警报。

先决条件

若要创建或编辑警报规则,你必须具有以下权限:

  • 警报规则目标资源的读取权限。
  • 对在其中创建警报规则的资源组的写入权限。
  • 读取 与警报规则关联的任何操作组的权限(如果适用)。

有关角色和访问权限的详细信息,请参阅 Azure Monitor 中的角色、权限和安全性

如何创建“资源健康”警报

  1. 在服务运行状况门户中,选择 资源运行状况

“服务运行状况”选项的屏幕截图。

  1. 选择 “添加资源运行状况警报 ”以打开 “创建警报规则 ”窗口。

资源健康的创建选项截图。

若要设置警报,请使用此窗口中的六个选项卡: 范围条件详细信息标记查看 + 创建

小窍门

  • 选择每个选项卡底部的“ 下一步:...” 按钮,或选择向导顶部的名称以打开下一个选项卡。
  • 名称旁边的星号 * 的所有字段都是必填字段。

Scope

范围定义警报监视的资源。 在此选项卡上,选择对业务而言最重要的订阅、资源组或单个资源。 资源运行状况警报仅针对范围中包含的资源触发。

通过选择正确的范围,可确保警报相关且可操作。 此选项可帮助你快速响应可能影响关键工作负荷的问题,而不会造成不必要的干扰。

资源运行状况范围选项卡的屏幕截图。

在此面板中,可以从下拉菜单中选择以下任意或全部选项:

  • Subscription
  • 资源组
  • 资源类型
  • Resource

还可以选择任一框或两个框,以包括所有将来的资源组和将来的资源。

Condition

使用此选项卡选择触发警报的内容。 设置它可监视资源运行状况(不可用或降级)、事件状态(活动或已解决)或特定原因类型(平台与用户操作)的更改。

选择最重要的条件,以便仅在需要作时获取警报。

资源健康状态选项卡的截图。

“信号名称”字段会自动填充并显示触发警报的事件类型。 对于 资源运行状况 警报,通常资源运行状况。 它告知Azure要监视的信号,以便在资源运行状况发生更改时触发警报。 在此选项卡中,您可以从您希望用于警报的健康相关条件中进行选择,例如:

  • 事件状态:是活动还是已解决或正在进行?
  • 资源状态:资源现在如何?
  • 以前的状态与当前状态:可以基于状态转换创建警报 - 它正在进行还是正在解决?
  • 原因类型:事件平台或用户是发起的吗?

若要为以下信息设置警报,请从以下每个下拉菜单选项中进行选择。

事件状态

  • 活动中 - 健康事件正在进行中。
  • 已解决 - 事件已结束。
  • 正在进行 - Azure 正在采取缓解措施。
  • 更新 - 关联资源的事件状态发生变化或接收到新信息。

事件状态下拉菜单的屏幕截图。

小窍门

  • 使用Active 来在问题出现时立即收到通知。
  • 对事后评审使用“已解决”
  • 如果状态为 “已更新” ,则应查看最新详细信息,以确认问题是否仍会影响资源,或者是否需要纠正措施。

当前资源状态

可以选择 “全部 ”或:

  • 可用 - 正常
  • 降级 - 性能问题
  • 不可用 - 宕机

当前状态下拉菜单的屏幕截图。

旧资源状态

可以选择 “全部 ”或:

  • 可用 - 正常
  • 降级 - 性能问题
  • 不可用 - 宕机
  • 未知 - 健康信息缺失

上一状态下拉菜单的屏幕截图。

注意

可以根据状态转换设置警报,例如:
Previous = 不可用和 Current = 可用。
这将显示资源已恢复,并且有助于跟踪恢复或 SLA 符合性。

原因类型

  • 平台启动 - Azure维护或故障。
  • 用户发起 - 手动停止/解除分配。 (此设置有助于区分Azure问题和用户操作
  • 未知

原因类型状态下拉菜单的屏幕截图。

行动

在此选项卡上,你决定如何收到通知。 操作组允许通过电子邮件、短信、推送通知,甚至通过 Webhook、Logic Apps 或 Functions 来触发自动化。
使用多个频道来确保所有合适的人员快速响应。

资源运行状况操作选项卡的截图。

根据您的订阅,这里是您可以选择的所有可用操作组的列表。

  1. 选择 选择行为组
  2. 最多可以选取五个组。
  3. 选择底部的 “选择 ”按钮以完成。
    每个动作组包含该组中的动作,这些动作由电子邮件或角色定义。

小窍门

选择“ 创建操作组 ”,然后按照提示设置自己的操作组。

有关操作组的更多信息,请参阅 操作组

详细信息

使用“ 详细信息 ”选项卡命名和描述警报。 提供此信息,以便可以轻松识别警报并立即了解其用途。

明确的名称和说明可帮助你管理多个警报,避免混淆,并确保为正确的方案触发正确的警报。

资源健康详细信息选项卡的截图。

在此选项卡上,你可以为警报提供明确的名称和说明,以便稍后可以轻松识别。 使用解释用途的名称,例如 关键虚拟机(VM)运行状况警报。
选择如何使用以下字段设置详细信息。

项目详细信息

  • 资源组
  • 区域

警报规则详细信息

  • 警报规则名称
  • 警报规则说明

高级选项
选择此工具,将自己的自定义属性添加到警报规则。

标记

标记有助于轻松组织和筛选警报。

例如,添加 环境:生产团队:作 等标记可以简化以后查找和管理警报,尤其是在有许多规则时。 资源健康标签选项卡的屏幕截图。

从“ 名称 ”下拉菜单中选择,然后从“ ”下拉菜单中选择值。

有关使用标记的详细信息,请参阅 使用标记来组织资源

审阅并创建

使用此选项卡在激活警报之前执行最终检查。

查看 范围条件操作标记详细信息 中的所有设置,以确保它们正确。

资源健康评审选项卡的屏幕截图。

如果一切正常,请选择“ 创建 ”开始监视资源。

详细信息

详细了解资源运行状况:

创建服务运行状况警报: