规划警报和自动操作
警报会主动通知你在监视数据中发现的重要数据或模式。 可以创建以下警报:
- 发送主动通知。
- 启动自动操作来尝试修正问题。
警报规则通过其使用的数据类型定义。 每种类型都有不同的功能和不同的成本。 基本策略是使用能够提供所需逻辑但成本最低的预警规则类型。 请参阅选择正确的警报规则类型。
有关警报的详细信息,请参阅警报概述。
警报策略
定义警报策略有助于定义预警规则的配置(包括警报严重性和操作组)。
有关开发警报策略时要考虑的因素,请参阅成功的警报策略。
自动响应警报
使用操作组定义对警报的自动响应。 操作组是由警报触发的一个或多个通知和操作的集合。 单个操作组可与多个预警规则一起使用,并包含以下一项或多项:
- 通知:通知操作员和管理员已创建警报的消息。
- 操作:用于尝试纠正检测到的问题的自动化过程。
通知
通知是发送给一个或多个用户以通知他们已创建警报的消息。 由于单个操作组可与多个预警规则一起使用,因此应该为接收相同警报集的不同管理员和用户集设计一个操作组集。 根据操作员的偏好和组织标准,使用以下任何类型的通知:
- 电子邮件
- SMS
- 向 Azure 资源管理器角色发送电子邮件
操作
操作是对警报的自动响应。 可以将可用的操作用于它们支持的任何方案,但以下部分介绍了每个操作的典型用法。
自动修正
使用以下操作来自动修正警报识别到的问题:
- 自动化 Runbook:在 Azure 自动化中启动内置 Runbook 或自定义 Runbook。 例如,内置 Runbook 可用于执行诸如重启或纵向扩展虚拟机之类的功能。
- Azure Functions:启动 Azure 函数。
值守管理
- Webhook:将警报发送到支持 Webhook 的事件管理系统,例如 PagerDuty 和 Splunk On-Call。
大规模警报
作为警报策略的一部分,需要针对所有关键 Azure 应用程序和资源的问题发出警报。 有关指导,请参阅大规模警报。
尽量减少警报活动
你想要为环境中的任何重要信息创建警报。 但你不想为不值得的问题创建过多的警报和通知。 若要尽量减少警报活动,确保严重的问题可以显现出来,同时不会生成过多的信息和通知来让管理员进行处理,请遵循以下准则:
- 若要确定某个症状是否适合发出警报,请参阅成功的警报策略。
- 在指标警报规则中使用“自动解决警报”选项,以便在状况得到纠正后解决警报。
- 在日志搜索查询警报规则中使用“抑制警报”选项,以避免针对同一问题创建多个警报。
- 确保为警报规则使用适当的严重性级别,以便分析高优先级问题。
- 限制严重性为“警告”或更低的警报的通知,因为这些警报不需要立即引以关注。