ExpressRoute 监视、指标和警报

本文可帮助你使用 Azure Monitor 了解 ExpressRoute 监视、指标和警报。 Azure Monitor 是整个 Azure 中所有指标、警报和诊断日志的一站式商店。

注意

建议不要使用经典指标

ExpressRoute 指标

若要查看“指标”,请转到“Azure Monitor”页,选择“指标”。 若要查看 ExpressRoute 指标,请按资源类型“ExpressRoute 线路”进行筛选 。 若要查看 Global Reach 指标,请按资源类型“ExpressRoute 线路”进行筛选,然后选择一个已启用 Global Reach 的 ExpressRoute 线路资源。 若要查看 ExpressRoute Direct 指标,请按“ExpressRoute 端口”筛选资源类型。

选择指标后,将应用默认聚合。 (可选)可以应用拆分,它将显示具有不同维度的指标。

重要

在 Azure 门户中查看 ExpressRoute 指标时,请选择 5 分钟或更大的时间粒度以获得最佳结果。

Screenshot of time granularity options.

聚合类型:

指标资源管理器支持 SUM、MAX、MIN、AVG 和 COUNT 作为聚合类型。 查看每个 ExpressRoute 指标的见解时,应该使用建议的聚合类型。

  • 总和:在聚合间隔期间捕获的所有值的总和。
  • 计数:在聚合间隔期间捕获的度量数。
  • Average:在聚合间隔期间捕获的指标值的平均值。
  • 最小值:在聚合间隔期间捕获的最小值。
  • 最大值:在聚合间隔期间捕获的最大值。

ExpressRoute 线路

指标 类别 计价单位 聚合类型 说明 维度 是否可通过诊断设置导出?
Arp 可用性 可用性 百分比 平均值 从 MSEE 到所有对等方的 ARP 可用性。 对等互连类型、对等互连
Bgp 可用性 可用性 百分比 平均值 从 MSEE 到所有对等方的 BGP 可用性。 对等互连类型、对等互连
BitsInPerSecond 交通 BitsPerSecond 平均值 每秒流入 Azure 的位数 对等互连类型
BitsOutPerSecond 交通 BitsPerSecond 平均值 每秒流出 Azure 的位数 对等互连类型
DroppedInBitsPerSecond 交通 BitsPerSecond 平均值 每秒丢弃的数据流入位数 对等互连类型
DroppedOutBitsPerSecond 交通 BitPerSecond 平均值 每秒丢弃的数据流出位数 对等互连类型

ExpressRoute 网关

指标 类别 计价单位 聚合类型 说明 维度 是否可通过诊断设置导出?
每秒接收的位数 性能 BitsPerSecond 平均值 在 ExpressRoute 网关上每秒接收到的总位数 roleInstance
CPU 使用率 性能 计数 平均值 ExpressRoute 网关的 CPU 使用率 roleInstance
每秒的数据包数 性能 每秒计数 平均值 在 ExpressRoute 网关上每秒接收到的总包数 roleInstance
播发到对等机的路由计数 可用性 计数 最大值 ExpressRouteGateway 播发到对等方的路由计数 roleInstance
从对等机获知的路由计数 可用性 计数 最大值 ExpressRouteGateway 从对等方获知的路由计数 roleInstance
路由更改频率 可用性 计数 总计 ExpressRoute 网关中的路由更改频率 roleInstance
虚拟网络中的 VM 数量 可用性 计数 最大值 虚拟网络中估计的 VM 数量 无维度
活动流 可伸缩性 计数 平均值 ExpressRoute 网关上的活动流数 roleInstance
最大每秒创建流数 可伸缩性 FlowsPerSecond 最大值 ExpressRoute 网关上最大每秒创建流数 roleInstance、direction

ExpressRoute 网关连接

指标 类别 计价单位 聚合类型 说明 维度 是否可通过诊断设置导出?
BitsInPerSecond 交通 BitsPerSecond 平均值 每秒通过 ExpressRoute 网关流入 Azure 的位数 ConnectionName
BitsOutPerSecond 交通 BitsPerSecond 平均值 每秒通过 ExpressRoute 网关流出 Azure 的位数 ConnectionName

ExpressRoute Direct

指标 类别 计价单位 聚合类型 说明 维度 是否可通过诊断设置导出?
BitsInPerSecond 交通 BitsPerSecond 平均值 每秒流入 Azure 的位数 链接
BitsOutPerSecond 交通 BitsPerSecond 平均值 每秒流出 Azure 的位数 链接
DroppedInBitsPerSecond 交通 BitsPerSecond 平均值 每秒丢弃的数据流入位数 链接
DroppedOutBitsPerSecond 交通 BitPerSecond 平均值 每秒丢弃的数据流出位数 链接
AdminState 物理连接 计数 平均值 端口的管理状态 链接
LineProtocol 物理连接 计数 平均值 端口的线路协议状态 链接
RxLightLevel 物理连接 计数 平均值 Rx 光能级(以 dBm 为单位) Link, Lane
TxLightLevel 物理连接 计数 平均值 Tx 光能级(以 dBm 为单位) Link, Lane

线路指标

进位和出位 - 所有对等互连的指标

聚合类型:Avg

可以查看给定 ExpressRoute 线路上所有对等互连的指标。

circuit metrics

进位和出位 - 每个对等互连的指标

聚合类型:Avg

可以查看专用、公共和 Microsoft 对等互连的指标(以位/秒为单位)。

metrics per peering

BGP 可用性 - 按对等机拆分

聚合类型:Avg

可以查看跨对等互连和对等机(主要和辅助 ExpressRoute 路由器)的近实时 BGP(第 3 层连接性)可用性。 此仪表板显示专用对等互连的主 BGP 会话状态为“已启动”,专用对等互连的第二个 BGP 会话状态为“关闭”。

BGP availability per peer

注意

在 Azure 边缘和核心网络之间进行维护的过程中,即使客户边缘和 Azure 边缘之间的 BGP 会话保持可用,BGP 可用性也会出现下降。 若要了解 Azure 边缘和核心网络之间的维护,请确保启用并配置维护警报

ARP 可用性 - 按对等互连拆分

聚合类型:Avg

可以查看跨对等互连和对等机(主要和辅助 ExpressRoute 路由器)的近实时 ARP(第 2 层连接性)可用性。 此仪表板显示跨两个对等机的专用对等互连 ARP 会话状态为“已启动”,但对于两个对等机的 Microsoft 对等互连,状态则为“关闭”。 已跨两个对等机利用了默认聚合(平均)。

ARP availability per peer

ExpressRoute Direct 指标

聚合类型:Avg

可以查看 ExpressRoute Direct 端口对的每个链路的管理状态。 管理状态表示物理端口是打开还是关闭。 跨 ExpressRoute Direct 连接传递流量时需要此状态。

ER Direct admin state

聚合类型:Avg

可以查看 ExpressRoute Direct 端口对的跨两个链路的每秒传入位数。 监视此仪表板以比较这两个链接的入站带宽。

ER Direct bits in per second

聚合类型:Avg

还可以查看 ExpressRoute Direct 端口对的跨两个链路的每秒传出位数。 监视此仪表板以比较这两个链接的出站带宽。

ER Direct bits out per second

聚合类型:Avg

可以查看 ExpressRoute Direct 端口对的跨每个链路的线路协议。 “线路协议”指示物理链路是否已启动以及是否通过 ExpressRoute Direct 运行。 监视此仪表板并设置警报,以了解物理连接是否已经关闭。

ER Direct line protocol

聚合类型:Avg

可以查看每个端口的 Rx 轻型级别(ExpressRoute Direct 端口的轻型级别是接收)。 正常的 Rx 光能级通常在 -10 dBm 到 0 dBm 范围内。 设置警报,以在 Rx 光能级超出正常范围时接收通知。

ER Direct line Rx Light Level

注意

ExpressRoute Direct 连接跨不同的设备平台进行托管。 某些 ExpressRoute Direct 连接将支持按通道划分的 Rx 光能级的拆分视图。 但是,所有部署都不支持此操作。

聚合类型:Avg

可以查看每个端口的 Tx 轻型级别(ExpressRoute Direct 端口的轻型级别为传输)。 正常的 Tx 光能级通常在 -10 dBm 到 0 dBm 范围内。 设置警报,以在 Tx 光能级超出正常范围时接收通知。

ER Direct line Tx Light Level

注意

ExpressRoute Direct 连接跨不同的设备平台进行托管。 某些 ExpressRoute Direct 连接将支持按通道划分的 Tx 光能级的拆分视图。 但是,所有部署都不支持此操作。

ExpressRoute 虚拟网络网关指标

聚合类型:Avg

部署 ExpressRoute 网关时,Azure 会管理网关的计算和功能。 用户可以使用六个网关指标来更好地了解你的网关的性能:

  • 每秒接收的位数
  • CPU 使用率
  • 每秒数据包数
  • 播发到对等机的路由计数
  • 从对等机获知的路由计数
  • 路由更改频率
  • 虚拟网络中的 VM 数量
  • 活动流
  • 最大每秒创建流数

强烈建议针对其中每个指标设置警报,以便知道网关何时可能出现性能问题。

每秒接收的位数 - 按实例拆分

聚合类型:Avg

此指标捕获 ExpressRoute 虚拟网络网关实例上的入站带宽利用率。 针对带宽利用率超过特定阈值的频率设置警报。 如果需要更多带宽,请增加 ExpressRoute 虚拟网络网关的大小。

Screenshot of inbound bit per second - split metrics.

CPU 利用率 - 按实例拆分

聚合类型:Avg

用户可以查看每个网关实例的 CPU 利用率。 在例行主机维护过程中,CPU 利用率可能会迅速激增,但 CPU 利用率长时间居高不下,可能表明网关达到性能瓶颈。 增加 ExpressRoute 网关的大小可以解决此问题。 针对 CPU 利用率超过特定阈值的频率设置警报。

Screenshot of CPU utilization - split metrics.

每秒数据包数 - 按实例拆分

聚合类型:Avg

此指标捕获遍历 ExpressRoute 网关的入站数据包的数目。 如果网关接收来自本地网络的流量,用户应该在这里看到一致的数据流。 针对每秒的数据包数量低于某个阈值时设置警报,指示网关不再接收流量。

Screenshot of packets per second - split metrics.

播发到对等机的路由计数 - 按实例拆分

聚合类型:Max

此指标显示 ExpressRoute 网关向线路播发的路由数。 地址空间可能包括使用 VNet 对等互连连接并使用远程 ExpressRoute 网关的虚拟网络。 除非虚拟网络地址空间频繁更改,否则路由数应保持一致。 针对播发的路由数低于所知的虚拟网络地址空间数阈值时设置警报。

Screenshot of count of routes advertised to peer.

从对等机获知的路由计数 - 按实例拆分

聚合类型:Max

此指标显示 ExpressRoute 网关从连接到 ExpressRoute 线路的对等机中获知的路由数。 这些路由可以来自连接到同一线路的另一个虚拟网络,也可以从本地获知。 针对获知的路由数低于特定阈值时设置警报。 这可能表示网关出现性能问题,或者远程对等机不再向 ExpressRoute 线路播发路由。

Screenshot of count of routes learned from peer.

路由更改频率 - 按实例拆分

聚合类型:Sum

此指标显示从远程对等机获知或播发到远程对等机的路由的频率。 应首先调查本地设备,了解网络更改如此频繁的原因。 路由更改频率较高可能表示 ExpressRoute 网关存在性能问题,其中向上缩放网关 SKU 可能会解决此问题。 针对频率阈值设置警报,以在 ExpressRoute 网关检测到异常路由更改时收到通知。

Screenshot of frequency of routes changed metric.

虚拟网络中的 VM 数量

聚合类型:Max

此指标显示使用 ExpressRoute 网关的虚拟机数量。 虚拟机数量可能包括来自使用同一 ExpressRoute 网关的对等互连虚拟网络的虚拟机。 如果虚拟机数量超过可能会影响网关性能的特定阈值,针对此指标设置警报。

Screenshot of number of virtual machines in the virtual network metric.

注意

为了维护服务的可靠性,Azure 通常会在网关服务上执行平台或 OS 维护。 在此期间,此指标可能会有波动并报告不准确。

活动流

聚合类型:Avg

拆分依据:网关实例

此指标会显示 ExpressRoute 网关上活动流总数的计数。 对于活动流,仅捕获来自本地的入站流量。 通过实例级别的拆分,可以查看每个网关实例的活动流计数。 有关详细信息,请参阅了解网络流限制

Screenshot of number of active flows per second metrics dashboard.

最大每秒创建流数

聚合类型:Max

拆分依据:网关实例和方向(入站/出站)

此指标可显示 ExpressRoute 网关上每秒创建的最大流数。 通过按实例级别和方向拆分,可以分别查看每个网关实例和入站/出站方向上的的最大流创建速率。 有关详细信息,请参阅了解网络流限制

Screenshot of the maximum number of flows created per second metrics dashboard.

ExpressRoute 网关连接(以位/秒为单位)

聚合类型:Avg

此指标显示每秒通过 ExpressRoute 网关流入和出口 Azure 的位数。 可以进一步拆分此指标,以查看到 ExpressRoute 线路的特定连接。

Screenshot of gateway connection bandwidth usage metric.

ExpressRoute 网关连接的警报

  1. 若要配置警报,请导航到“Azure Monitor”,然后选择“警报”。

    Screenshot of the alerts option from the monitor overview page.

  2. 选择“+ 创建”>“警报规则”,然后选择 ExpressRoute 网关连接资源。 选择“下一步:条件”>以配置信号。

    Screenshot of the selecting ExpressRoute virtual network gateway from the select a resource page.

  3. 在“选择信号”页上,选择要收到警报的指标、资源运行状况或活动日志。 根据所选信号,可能需要输入其他信息,例如阈值。 还可以将多个信号合并到单个警报中。 选择“下一步:操作”>以定义接收通知的人员及通知方式。

    Screenshot of list of signals that can be alerted for ExpressRoute gateways.

  4. 选择“+ 选择操作组”以选择之前创建的现有操作组,或者选择“+ 创建操作组”以定义新操作组。 在操作组中,可以确定通知的发送方式以及接收通知的人员。

    Screenshot of add action groups page.

  5. 选择“查看 + 创建”,然后选择“创建”,将警报部署到订阅中。

基于每个对等互连的警报

选择指标后,某些指标允许根据对等互连或特定对等互连(虚拟网络)设置维度。

Screenshot of an alert rule based on ExpressRoute peering set up.

为线路上的活动日志配置警报

选择要对其发出警报的信号时,可以选择“活动日志”信号类型。

Screenshot of activity log signals from the select a signal page.

Log Analytics 中的更多指标

还可以通过转到 ExpressRoute 线路资源并选择“日志”选项卡来查看 ExpressRoute 指标。对于你查询的任何指标,输出将包含以下列。

类型 说明
TimeGrain 字符串 PT1M(每分钟推送一次指标值)
Count real 通常等于 2(每个 MSEE 每分钟推送一个指标值)
最低配置 real 两个 MSEE 推送的两个指标值中的最小值
最大值 real 两个 MSEE 推送的两个指标值中的最大值
平均值 real 等于 (最小值 + 最大值)/2
总计 real 来自两个 MSEE 的两个指标值的总和(所查询指标的需关注的主要值)

后续步骤

设置 ExpressRoute 连接。