使用指标顾问诊断事件

重要

从 2023 年 9 月 20 日开始,将无法创建新的 Azure 指标顾问资源。 指标顾问服务将于 2026 年 10 月 1 日停用。

什么是事件?

当在特定时间戳于一个指标中的多个时序上检测到异常时,指标顾问会自动将共享相同根本原因的异常划分到一个事件中。 事件通常表示存在实际问题,而指标顾问会就其进行分析并提供自动根本原因分析见解。

这将大幅减少客户查看每个异常所需的工作量,并迅速找到最重要的问题诱因。

指标顾问生成的警报可能包含多个事件,并且每个事件均有可能包含在同一时间戳的不同时序上捕获的多个异常。

诊断事件的路径

  • 通过警报通知进行诊断

    如已配置电子邮件/Teams 类型的挂钩并应用了至少一种警报配置, 则将收到持续警报通知,告知升级经指标顾问分析的事件。 通知包含一个事件列表和一个简短说明。 每个事件都有一个“诊断”按钮,选择该按钮将引导你进入事件详细信息页,以便查看诊断见解。

    Diagnose from an alert notification

  • 通过“事件中心”中的事件进行诊断

    指标顾问中存在一个中心位置,可以收集已捕获的所有事件,并可轻松跟踪任何持续存在的问题。 选择左侧导航栏中的“事件中心”选项卡将会列出所选指标中的所有事件。 选择事件列表中的一个事件,查看详细的诊断见解。

    Diagnose from an incident in Incident hub

  • 通过指标页中列出的事件进行诊断

    指标详细信息页内有一个名为“事件”选项卡,其中列出了针对此指标捕获的最新事件。 该列表可以按事件的严重性或指标的维度值进行筛选。

    选择列表中的一个事件将引导你进入事件详细信息页,以便查看诊断见解。

    Diagnose from an incident listed in metrics page

典型诊断流

定向到事件详细信息页后,可以利用指标顾问自动分析的见解,快速找到问题的根本原因,或使用分析工具进一步评估问题影响。 事件详细信息页中有三个部分,分别对应于诊断事件的三个主要步骤。

步骤 1:检查当前事件的摘要

第一部分列出了当前事件的摘要,包括基本信息、操作和跟踪,以及分析的根本原因。

  • 基本信息包括关系图“受影响最严重的系列”、“影响开始和结束时间”、“事件严重程度”和“包括的异常总数”。 通过阅读摘要,可以基本了解持续存在的问题及其影响。

  • 操作和跟踪用于促进团队就正在进行的事件开展协作。 有时,一个事件可能需要涉及跨团队成员协作,方可分析和解决。 有权查看事件的任何人员均可添加操作或跟踪事件。

    例如,在诊断事件并确定根本原因后,工程师可以添加类型为“自定义”的跟踪项,并在注释部分输入根本原因。 将状态保留为“活动”。 然后,其他团队成员可以共享相同信息,并且知道有人正在开发修补程序。 还可以添加“Azure DevOps”项,以跟踪具有特定任务或 bug 的事件。

  • 分析的根本原因是自动分析所得结果。 指标顾问将分析一个指标内按时序捕获的所有异常,这些异常在同一时间戳具有不同的维度值。 然后执行关联、聚类分析以将相关异常组合在一起并生成根本原因建议。

Incident summary

对于具有多个维度的指标,一种常见情况是同时检测到多个异常。 但是,这些异常可能具有相同的根本原因。 利用“分析的根本原因”应是诊断当前事件最有效的方法,而非逐一分析所有异常。

步骤 2:查看跨维度诊断见解

在获得基本信息和自动分析见解后,可以使用“诊断树”以整体方式获取有关同一指标内其他维度异常状态的更多详细信息。

对于具有多个维度的指标,指标顾问将时序归类为一个层次结构,称为“诊断树”。 例如,“收入”指标按两个维度监视:“区域”和“类别”。 无论具体的维度值如何,都需要有一个聚合维度值,例如“SUM” 。 “地区”=“SUM”和“类别”=“SUM”的时序将被归类为树中的根节点 。 每当在“SUM”维度捕获到异常时,便可以向下钻取,找出哪个特定维度值对父级节点异常的贡献最大。 选择每个节点,展开并查看详细信息。

Cross dimension diagnostic using diagnostic tree

  • 在指标中启用“聚合”维度值

    指标顾问支持对维度执行“汇总”,以计算“聚合”维度值。 诊断树支持对“SUM”、“AVG”、“MAX”、“MIN”、“COUNT”聚合进行诊断。 若要启用“聚合”维度值,可以在数据载入期间启用“汇总”函数。 请确保指标可用数学方法计算,并且聚合维度具有真正的业务价值。

    Roll-up settings

  • 指标中不存在“聚合”维度值

    如果指标中不存在“聚合”维度值,并且未在数据载入期间启用“汇总”函数, 则不会计算“聚合”维度的指标值,该值将在树中显示为灰色节点,且可供展开以查看其子节点。

诊断树图例

诊断树中有三种类型的节点:

  • 蓝色节点:与具有实际指标值的时序相对应。
  • 灰色节点:与无指标值的虚拟时序相对应,是一个逻辑节点。
  • 红色节点:与当前事件受影响最严重的时序相对应。

每个节点的异常状态可通过节点边框的颜色描述

  • 红色边框表示在与事件时间戳相对应的时序上捕获到异常。
  • 非红色边框表示未在与事件时间戳相对应的时序上捕获异常。

显示模式

诊断树有两种显示模式:仅显示异常时序或显示主要比例。

  • 仅显示异常时序模式允许客户专注于在不同时序上捕获的当前异常,并诊断受影响最严重时序的根本原因。
  • 显示主要比例允许客户检查受影响最严重时序的主要比例的异常状态。 在此模式下,树将显示检测到异常的时序和无异常的时序, 但更加聚焦于重要时序。

分析选项

  • 显示增量比率

    “增量比率”是当前节点增量与父级节点增量的百分比。 公式如下:

    (当前节点的实际值 - 当前节点的预期值)/(父级节点的实际值 - 父级节点的预期值)* 100%

    此比率用于分析父级节点增量的主要贡献。

  • 显示值比例

    “值比例”是当前节点值与父级节点值的百分比。 公式如下:

    (当前节点的实际值/父级节点的实际值)* 100%

    此百分比用于评估当前节点在整体中所占的比例。

通过使用“诊断树”,客户可以将当前事件的根本原因锁定到具体维度中。 这样可以显著消除客户查看每个异常或通过不同维度查找主要异常贡献的工作量。

步骤 3:使用“指标图”查看跨指标诊断见解

有时,很难通过检查单个指标的异常状态来分析问题,需要将多个指标关联在一起。 客户可以配置一个“指标图”,该图可以表明指标之间的关系。 如要开始操作,请参阅如何生成指标图

在“指标图”中检查根本原因维度的异常状态

通过利用以上跨维度诊断结果,将根本原因限制到特定维度值。 然后使用“指标图”并按分析的根本原因维度进行筛选,以检查其他指标的异常状态。

例如,如果在“收入”指标中捕获到一个事件, 则受影响最严重的时序将是“区域”=“SUM”的整体区域。 通过使用跨维度诊断,确定根本原因位于“区域”=“Karachi”中。 存在一个预配置的指标图,其中包括“收入”、“成本”、“DAU”、“PLT(页面加载时间)”和“CHR(缓存命中率)”的指标。

指标顾问将按“区域”=“Karachi”的根本原因维度自动筛选指标图,并显示每个指标的异常状态。 通过分析指标与异常状态之间的关系,客户可以更深入地了解最终的根本原因。

Cross metrics analysis

通过对指标图应用根本原因维度筛选器,将自动关联当前事件时间戳的每个指标的异常。 这些异常应与已确定的当前事件的根本原因关联。

Auto related anomalies

后续步骤