本文介绍了有关 Azure Monitor 指标警报的常见问题,以及如何排查这些问题。
在监视数据中发现重要情况时,Azure Monitor 警报会主动通知你。 这些方法可以让你在系统用户发现问题之前识别并解决这些问题。 有关警报的详细信息,请参阅 Azure 中的警报概述。
如果你认为某个指标警报应当已触发但未触发且在 Azure 门户中未列出该警报,请尝试执行以下步骤:
检查指标警报规则配置。
检查是否按预期配置了“聚合类型”和“聚合粒度(周期)”。 “聚合类型”确定指标值的聚合方式。 若要了解详细信息,请参阅 Azure Monitor 指标聚合和显示说明。 聚合粒度(周期)控制每次运行警报规则时评估聚合指标值的时间间隔。
检查“阈值”或“敏感度”是否按预期方式配置。
对于使用动态阈值的预警规则,请检查是否配置了高级设置。 “冲突数”可能会筛选警报,而“忽略之前的数据”会影响阈值的计算方式。
注意
动态阈值在变为活动状态之前至少需要 3 天和 30 个指标示例。
检查警报是否已触发但未发送通知。
查看触发的警报列表,看是否可以找到触发的警报。 如果可以在列表中看到警报,但某些操作或通知出现问题,请参阅排查 Azure Monitor 警报中的问题。
检查警报是否已处于活动状态。
检查你预计会收到警报的指标时序是否已存在触发的警报。 默认情况下指标警报是有状态的,即,一旦在特定的指标时序中触发某个警报,就不会触发该时序中的更多警报,直到不再出现相应的问题。 此设计选择减少了干扰。 当连续三次评估不满足警报条件时,会自动解决警报。
检查使用的维度。
如果选择了一些针对某个指标的维度值,则警报规则会监视各个指标时序(通过将维度值组合在一起来定义)中是否存在超出阈值的情况。 如果还要监视聚合指标时序(不选择任何维度),请在该指标上配置其他预警规则而不选择维度。
检查聚合和时间粒度。
如果使用指标图表,请确保:
- 指标图表中选择的“聚合”与警报规则中的“聚合类型”相同。
- 所选的“时间粒度”与预警规则中的“聚合粒度(周期)”相同,且未设置为“自动”。
检查警报规则是否错过时序中的第一个评估期。
通过确保在以下情况下选择大于评估频率的聚合粒度(周期),可以降低错过对已添加的时序进行首次评估的可能性:
- 监视多个维度的指标警报规则添加新的维度值组合时。
- 监视多个资源的指标警报规则范围添加新的资源时。
- 指标在超过 24 小时的时间段后发出时(对于监视未连续发出的指标(稀疏指标)的指标警报规则,该指标在该时间段内未发出)。
默认情况下,指标警报是有状态的,因此如果特定时序上已有触发的警报,则不会触发其他警报。 要使某个特定指标警报规则无状态,并在评估结果为满足警报条件的情况下收到警报,请使用选项之一:
如果要以编程方式(例如通过 Azure 资源管理器、PowerShell、REST 或 Azure CLI)创建预警规则,请将
autoMitigate
属性设置为False
。如果要在 Azure 门户中创建警报规则,请清除“警报规则详细信息”部分下的“自动解决警报”选项。 无状态指标警报的通知频率因警报规则的配置频率而异:
警报频率小于 5 分钟:当继续满足条件时,将在 1 到 6 分钟之间发送通知。
警报频率超过 5 分钟:当继续满足条件时,将在配置的频率到两倍于该频率的时间之间发送通知。 例如,对于频率为 15 分钟的警报规则,将在 15 到 30 分钟之间发送通知。
注意
使指标警报规则无状态可防止触发的警报得到解决。 因此,即便条件不再满足,已触发的警报仍然保持在触发状态,直到 30 天的保留期结束。
你可能会遇到一种使用动态阈值的警报规则,它可能不会触发或不够敏感,即使它设置了高敏感度。 这种情况通常是因为指标分布过于不规律。 请考虑以下解决方案之一来解决此问题:
- 请改成监视适合你的场景的互补指标(如果适用)。 例如,检查成功率的变化情况,而非失败率。
- 尝试选择不同的“聚合粒度(周期)”值。
- 检查过去 10 天内指标行为是否发生过重大更改(例如中断)。 突然的更改会影响系统计算指标时的上限和下限,并扩大阈值范围。 等待几天,直到中断不再纳入阈值计算。 还可以编辑警报规则,以使用“高级设置”中的“忽略此前的数据”选项。
- 如果数据具有每周周期性,但没有足够的历史记录可用于指标,则计算出的阈值可能会具有较宽的上限和下限。 例如,计算可以以相同的方式处理工作日和周末,并构建不总是适合数据的宽边界。 此问题应在有足够的指标历史记录后自行解决。 然后会检测正确的季节性,并相应地更新计算的阈值。
如果你认为指标警报不应当触发但却触发,则可通过以下步骤来解决问题。
查看触发的警报列表,找到触发的警报。 选择该警报以查看其详细信息。 查看“为何会触发此警报?”下提供的信息,以了解触发警报时的指标图表、“指标值”和“阈值”。
注意
如果你使用动态阈值,并且认为阈值不正确,请使用哭脸图标提供反馈。 此反馈会影响机器学习算法研究,并且将有助于改进未来的检测。
如果为某个指标选择了多个维度值,则当任何指标时序(通过将维度值组合在一起来定义)超出阈值时,都会触发警报。 有关在指标警报中使用维度的详细信息,请参阅使用维度缩小目标范围。
检查预警规则配置以确保它已正确配置:
- 检查是否按预期配置了“聚合类型”、“聚合粒度(周期)”和“阈值”或“敏感度”。
- 对于使用动态阈值的预警规则,请检查是否配置了高级设置,因为“冲突数”可能会筛选警报,而“忽略之前的数据”会影响阈值的计算方式。
注意
动态阈值在变为活动状态之前至少需要 3 天和 30 个指标示例。
如果使用指标图表,请确保:
- 指标图表中选择的“聚合”与警报规则中的“聚合类型”相同。
- 所选的“时间粒度”与预警规则中的“聚合粒度(周期)”相同,且未设置为“自动”。
如果在触发该警报时已存在对同一条件进行监视的已触发警报(尚未解决),请检查是否已将警报规则配置为不自动解决警报。 这意味着警报规则无状态,不会自动解决触发的警报,并且不要求已触发的警报在同一时序上再次触发之前先行得到解决。 若要检查是否已将预警规则配置为不自动解决,请执行以下操作:
- 在 Azure 门户中编辑预警规则。 查看是否已清除“预警规则详细信息”部分下的“自动解决警报”复选框。
- 查看用于部署预警规则或检索预警规则定义的脚本。 检查
autoMitigate
属性是否设置为false
。
如果使用动态阈值的警报规则太过嘈杂或触发次数过多,则可能需要降低动态阈值警报规则的敏感度。 使用以下选项之一:
- 阈值敏感度:将敏感度设置为“低”,以便降低对偏差的敏感度。
- 冲突数(位于“高级设置”下):将预警规则配置为仅在某个时间段内出现一定数量的偏差时才触发。 这设置使规则不易受到暂时性偏差的影响。
当指标值表现出较大波动时,动态阈值可能会围绕指标值构建一个宽模型,这可能会导致边界低于或高于预期。 在以下条件下可能出现此情况:
敏感度设置为低。
指标出现无规律的行为,且变化较大(数据中出现峰值或最小值)。
考虑通过选择更高的敏感度或选择更大的回看时间段来降低模型的敏感度。 也可使用“忽略之前的数据”选项,从用于生成模型的历史数据中排除最近的异常数据。
如果要对特定指标发出警报,但创建预警规则时看不到该指标,请检查以下内容:
- 如果可以看到资源的某些指标,但找不到特定指标,请检查该指标是否受支持。 如果可用,请查看指标说明,以确定它是否仅适用于特定版本的资源。
- 如果该指标不适用于资源,则可能会在资源日志中提供,并且可使用日志警报来监视它。 有关详细信息,请参阅如何从 Azure 资源收集资源日志并对其进行分析。
如果您想对某个指标的特定维度值发出警报,但找不到这些值:
- 维度值可能需要几分钟时间才能显示在“维度值”列表下。
- 显示的维度值基于前一天收集到的指标数据。
- 如果维度值尚未发出或未显示,可以使用“添加自定义值”选项添加自定义维度值。
- 如果要对某个维度所有的可能值(甚至包括将来的值)发出警报,请选中“选择所有当前和将来的值”选项。
- 默认情况下,Application Insights 资源的自定义指标维度处于关闭状态。 若要启用这些自定义指标的维度集合,请参阅 Application Insights 中基于日志的指标和预先聚合的指标。
大多数指标支持动态阈值,但并非全部指标都支持。 有关指标列表,请参阅动态阈值不支持的指标。
查看 Azure Monitor 支持的指标中的指标说明,以检查它是否仅适用于特定版本的资源或此特定类型。
例如,在 SQL 数据库资源或存储文件服务中,仅特定版本的资源才支持特定指标。
此错误表示警报规则范围存在问题。 在编辑范围被限定为支持多资源配置(例如虚拟机或 SQL 数据库)的资源类型的警报规则,并尝试添加同一类型但来自另一区域的其他资源时,可能会出现此情况。 指标警报不支持对来自不同区域的同一类型的多个资源发出警报。
每个订阅允许的指标警报规则数目受制于服务限制。
请参阅检查正在使用的指标警报规则数量,了解当前正在使用的指标警报规则数量。
如果已达到服务限制,以下步骤可能会有助于解决此问题:
- 尝试删除或禁用不再使用的指标预警规则。
- 切换到使用监视多个资源的指标预警规则。 借助此功能,通过只将一个预警规则计入配额,一个预警规则可以监视多个资源。 要详细了解此功能和支持的资源类型,请参阅指标警报。
- 如果需要提高配额限制,请创建支持请求,并提供以下信息:
- 需要增加配额限制的订阅 ID。
- 增大配额的资源类型。 选择“指标警报”。
- 请求的配额限制。
有关警报和通知的常规故障排除信息,请参阅排查 Azure Monitor 警报中的问题。