监视 Azure 虚拟 WAN - 最佳实践

本文提供了用于监视虚拟 WAN 及其可部署的不同组件的配置最佳做法。 本文中提供的建议主要基于 Azure 虚拟 WAN 生成的现有 Azure Monitor 指标和日志。 有关为虚拟 WAN 收集的指标和日志的列表,请参阅监视虚拟 WAN 数据参考

本文中的大多数建议都建议创建 Azure Monitor 警报。 Azure Monitor 警报旨在在监视数据中存在重要事件时主动向你发出通知,以帮助更快地查找根本原因,并最终减少故障时间。 若要了解如何创建指标警报,请参阅教程:创建用于 Azure 资源的指标警报

虚拟 WAN 网关

站点到站点 VPN 网关

设计清单 - 指标警报

  • 为隧道出口和/或入口数据包放置计数的增加创建警报规则。
  • 创建警报规则以监视 BGP 对等机状态。
  • 创建警报规则以监视播发和学习的 BGP 路由数。
  • 为 VPN 网关的过度使用创建警报规则。
  • 为隧道的过度使用创建警报规则。
建议 说明
为隧道出口和/或入口数据包放置计数的增加创建警报规则。 隧道出口和/或入口丢包数量的增加可能表明 Azure VPN 网关或远程 VPN 设备出现问题。 创建警报规则时,选择隧道出口/入口数据包放置计数指标。 定义大于 0静态阈值,并在配置警报逻辑时定义“总计”聚合类型。

可以选择将连接作为一个整体来监视,或者按实例远程 IP 拆分警报规则,以针对涉及单个隧道的问题发出警报。 若要了解 VPN 连接概念、链接和虚拟 WAN 中的隧道之间的区别,请参阅虚拟 WAN 常见问题解答
创建警报规则以监视 BGP 对等机状态。 在站点到站点连接中使用 BGP 时,请务必监视网关实例与远程设备之间的 BGP 对等互连的运行状况,因为反复失败可能会中断连接。

创建警报规则时,选择 BGP 对等状态指标。 使用静态阈值,选择“平均”聚合类型,并将警报配置为在值小于 1 时触发。

建议按“实例”和“BGP 对等地址”来拆分警报,以检测单个对等互连的问题。 避免选择网关实例 IP 作为 BGP 对等地址,因为此指标会监视每个可能组合(包括始终为 0 的实例本身)的 BGP 状态。
创建警报规则以监视播发和学习的 BGP 路由数。 播发的 BGP 路由数学习的 BGP 路由数分别监视 VPN 网关播发的路由数以及从对等机学习的路由数。 如果这些指标意外下降到零,可能是因为网关或本地出现问题。

建议同时为这两个指标配置在其值为零时触发的警报。 选择“总计”聚合类型。 按实例拆分,以监视单个网关实例。
为 VPN 网关的过度使用创建警报规则。 VPN 网关的聚合吞吐量取决于每个实例的缩放单元数。 请注意,在同一网关实例中终止的所有隧道都将共享其聚合吞吐量。 如果一个实例长时间满负荷工作,隧道稳定性可能会受到影响。

创建警报规则时,请选择“网关 S2S 带宽”。 将警报配置为在平均吞吐量大于一个接近两个实例的最大聚合吞吐量的值时触发。 或者,按实例拆分警报,并使用每个实例的最大吞吐量作为参考。

最好提前确定每个隧道的吞吐量需求,以便选择适当的缩放单元数。 若要详细了解站点到站点 VPN 网关支持的缩放单元值,请参阅虚拟 WAN 常见问题解答
为隧道的过度使用创建警报规则。 每个隧道允许的最大吞吐量由网关实例终止时的缩放单元决定。

如果隧道面临接近最大吞吐量的风险(这可能导致性能和连接问题),你可能希望收到警报,并通过调查隧道利用率增加的根本原因或增加网关的缩放单元来主动应对它。

创建警报规则时,选择“隧道带宽”。 按实例远程 IP 拆分,以监视所有单个隧道或选择特定的隧道。 将警报配置为在平均吞吐量大于接近每个隧道允许的最大吞吐量的值时触发。

若要详细了解隧道的最大吞吐量如何受网关缩放单元的影响,请参阅虚拟 WAN 常见问题解答

设计清单 - 日志查询警报

若要配置基于日志的警报,必须先为站点到站点/点到站点 VPN 网关创建诊断设置。 诊断设置用于定义要收集的日志和/或指标,以及如何存储稍后要分析的数据。 与网关指标不同,如果未配置诊断设置,则网关日志将不可用。 若要了解如何创建诊断设置,请参阅创建诊断设置以查看日志

  • 创建隧道断开连接警报规则。
  • 创建 BGP 断开连接警报规则。
建议 说明
创建隧道断开连接警报规则。 使用隧道诊断日志跟踪站点到站点连接中的断开连接事件。 断开连接事件可能是由于无法协商 SA、远程 VPN 设备无响应以及其他原因造成的。 隧道诊断日志还提供断开连接的原因。 请参阅此表下面的创建隧道断开连接警报规则 - 日志查询,以在创建警报规则时选择断开连接事件。

将警报配置为在因运行上述查询而产生的行数大于 0 时触发。 若要使此警报生效,请为聚合粒度选择介于 1 到 5 分钟之间的值,而评估频率也介于 1 到 5 分钟之间。 这样,在超过聚合粒度间隔后,新间隔的行数为 0。

有关分析隧道诊断日志时的故障排除提示,请参阅使用诊断日志排查 Azure VPN 网关问题。 此外,使用 IKE 诊断日志为故障排除提供补充,因为这些日志包含特定于 IKE 的详细诊断。
创建 BGP 断开连接警报规则。 使用路由诊断日志来跟踪 BGP 会话的路由更新和问题。 重复的 BGP 断开连接事件可能会影响连接并导致故障。 请参阅此表下面的创建 BGP 断开连接规则警报 - 日志查询,以在创建警报规则时选择断开连接事件。

将警报配置为在因运行上述查询而产生的行数大于 0 时触发。 若要使此警报生效,请为聚合粒度选择介于 1 到 5 分钟之间的值,而评估频率也介于 1 到 5 分钟之间。 这样,在超过聚合粒度间隔后,如果还原了 BGP 会话,新间隔的行数再次为 0。

有关路由诊断日志收集的数据的详细信息,请参阅使用诊断日志排查 Azure VPN 网关问题

日志查询

  • 创建隧道断开连接警报规则 - 日志查询:可以使用以下日志查询在创建警报规则时选择隧道断开连接事件:

    AzureDiagnostics
    | where Category == "TunnelDiagnosticLog" 
    | where OperationName == "TunnelDisconnected"
    
  • 创建 BGP 断开连接规则警报 - 日志查询:可以使用以下日志查询在创建警报规则时选择 BGP 断开连接事件:

    AzureDiagnostics 
    | where Category == "RouteDiagnosticLog" 
    | where OperationName == "BgpDisconnectedEvent"
    

点到站点 VPN 网关

以下部分仅详细介绍了基于指标的警报的配置。 但是,虚拟 WAN 点到站点网关也支持诊断日志。 若要详细了解点到站点网关可用的诊断日志,请参阅虚拟 WAN 点到站点 VPN 网关诊断

设计清单 - 指标警报

  • 为网关的过度使用创建警报规则。
  • 为接近限制的 P2S 连接计数创建警报。
  • 为接近限制的用户 VPN 路由计数创建警报。
建议 说明
为网关的过度使用创建警报规则。 点到站点网关的带宽取决于配置的缩放单元数。 若要了解有关点到站点网关缩放单元的详细信息,请参阅点到站点(用户 VPN)。

使用网关 P2S 带宽指标来监视网关的利用率,并配置一个警报规则,该规则在网关带宽大于接近其聚合吞吐量的一个值时触发,例如,如果网关配置了 2 个缩放单元,则其聚合吞吐量将为 1 Gbps。 在这种情况下,可以定义阈值为 950 Mbps。

使用此警报主动调查利用率增加的根本原因,并在需要时最终增加缩放单元数。 配置警报规则时,选择“平均”聚合类型。
为接近限制的 P2S 连接计数创建警报 允许的最大点到站点连接数也取决于网关上配置的缩放单元数。 若要了解有关点到站点网关缩放单元的详细信息,请参阅点到站点(用户 VPN)的常见问题解答。

使用 P2S 连接计数指标监视连接数。 选择此指标来配置一个警报规则,该规则在连接数接近允许的最大值时触发。 例如,1 缩放单元网关最多支持 500 个并发连接。 在这种情况下,可以将警报配置为在连接数大于 450 时触发。

使用此警报来确定是否需要增加缩放单元数。 配置警报规则时,选择“总计”聚合类型。
为接近限制的用户 VPN 路由计数创建警报规则。 用户 VPN 路由的最大数目取决于所使用的协议。 IKEv2 的协议级别限制为 255 个路由,而 OpenVPN 的路由限制为 1000 个。 若要详细了解这一点,请参阅 VPN 服务器配置概念

如果接近达到最大用户 VPN 路由数,并主动采取行动来避免任何故障。 使用用户 VPN 路由计数来监视此情况,并配置在路由数超过接近限制的值时触发的警报规则。 例如,如果限制为 255 个路由,则适当的阈值值可以为 230。 配置警报规则时,选择“总计”聚合类型。

ExpressRoute 网关

本文的这一部分重点介绍基于指标的警报。 虚拟 WAN ExpressRoute 网关当前没有可用的诊断日志。 除了下面所述的警报(侧重于网关组件)之外,建议使用可用的指标、日志和工具来监视 ExpressRoute 线路。 若要了解有关 ExpressRoute 监视的详细信息,请参阅 ExpressRoute 监视、指标和警报

设计清单 - 指标警报

  • 针对每秒接收的位数创建警报规则。
  • 为 CPU 的过度使用创建警报规则。
  • 针对每秒数据包数创建警报规则。
  • 针对播发到对等机的路由数创建警报规则。
  • 计算有关从对等机学习的路由数的警报规则。
  • 为路由更改中的高频率创建警报规则。
建议 说明
为每秒接收的位数创建警报规则。 每秒接收的位数监视网关从 MSEE 接收的流量总量。

你可能希望在网关收到的流量面临达到最大吞吐量的风险时收到警报,因为这可能会导致性能和连接问题。 这样,便可以通过调查网关利用率增加的根本原因或增加网关允许的最大吞吐量来主动采取行动。

选择“平均”聚合类型并为“阈值”选择一个接近配置警报规则时为网关预配的最大吞吐量的值。

此外,建议设置一个在“每秒接收的位数”接近零时触发的警报,因为这可能表明网关或 MSEE 出现了问题。

ExpressRoute 网关的最大吞吐量取决于预配的缩放单元数。 若要详细了解 ExpressRoute 网关性能,请参阅关于 Azure 虚拟 WAN 中的 ExpressRoute 连接
为 CPU 的过度使用创建警报规则。 使用 ExpressRoute 网关时,监视 CPU 使用率非常重要。 长时间的高利用率运行可能会影响性能和连接。

使用 CPU 使用率指标来监视此情况,并在 CPU 使用率大于 80% 时创建警报,以便可以调查根本原因,并最终根据需要增加缩放单元数。 配置警报规则时,选择“平均”聚合类型。

若要详细了解 ExpressRoute 网关性能,请参阅关于 Azure 虚拟 WAN 中的 ExpressRoute 连接
为每秒接收的文件包数创建警报规则。 每秒数据包数监视遍历虚拟 WAN ExpressRoute 网关的入站数据包数。

你可能希望在“每秒数据包数”接近网关上配置的缩放单元数的允许上限时收到警报。

配置警报规则时,选择“平均”聚合类型。 根据网关的缩放单元数,为阈值选择一个接近允许的最大每秒数据包数的值。 若要详细了解 ExpressRoute 性能,请参阅关于 Azure 虚拟 WAN 中的 ExpressRoute 连接

此外,建议设置一个在“每秒数据包数”接近零时触发的警报,因为这可能表明网关或 MSEE 出现了问题。
针对播发到对等机的路由数创建警报规则。 “播发到对等机的路由计数”会监视从 ExpressRoute 网关播发到虚拟中心路由器和 Microsoft Enterprise 边缘设备的路由数。

建议添加筛选器,以仅选择显示为“ExpressRoute 设备”的两个 BGP 对等方,并创建警报以识别已播发路由计数何时接近记录的 1000 条限制。 例如,将警报配置为在播发的路由数大于 950 时触发。

我们还建议配置一个在播发到 Microsoft 边缘设备的路由数为零时触发的警报,以便主动检测任何连接问题。

若要添加这些警报,请选择“播发到对等机的路由计数”指标,然后选择“添加筛选器”选项和 ExpressRoute 设备。
针对从对等机学习的路由数创建警报规则。 “从对等机学习的路由计数”会监视 ExpressRoute 网关从虚拟中心路由器和 Microsoft Enterprise 边缘设备学习的路由数。

建议添加筛选器,以仅选择显示为“ExpressRoute 设备”的两个 BGP 对等方,并创建警报以识别已获知路由计数何时接近记录的限制(标准 SKU 4000 条线路,高级 SKU 10,000 条线路)

我们还建议配置一个在播发到 Microsoft 边缘设备的路由数为零时触发的警报。 这有助于检测本地部署何时停止播发路由。
为路由更改中的高频率创建警报规则。 路由更改频率显示从/向对等机学习和播发路由的更改频率,包括其他类型的分支,例如站点到站点和点到站点 VPN。 此指标显示新分支或更多线路连接/断开连接的时间。

此指标在识别 BGP 播发问题(例如浮点)时是一个有用的工具。 如果环境是静态的且不需要 BGP 更改,则建议设置警报。 为阈值选择一个大于 1 的值,为聚合粒度选择 15 分钟,以一致地监视 BGP 行为。

如果环境是动态的,并且经常需要 BGP 更改,则可以选择不设置警报,以避免误报。 但是,仍可以考虑在观察网络时使用此指标。

虚拟中心

以下部分重点介绍虚拟中心的基于指标的警报。

设计清单 - 指标警报

  • 针对 BGP 对等状态创建警报规则
建议 说明
创建警报规则以监视 BGP 对等机状态。 创建警报规则时,选择 BGP 对等状态指标。 使用静态阈值,选择“平均”聚合类型,并将警报配置为在值小于 1 时触发。

这样,就可以确定虚拟中心路由器何时存在有关中心内部署的 ExpressRoute、站点到站点 VPN 和点到站点 VPN 网关的连接问题。

Azure 防火墙

本文的这一部分重点介绍基于指标的警报。 Azure 防火墙提供用于监视目的的指标和日志综合列表。 除了配置以下部分中所述的警报外,还请了解 Azure 防火墙工作簿如何帮助监视 Azure 防火墙,或者使用适用于 Azure Sentinel 的 Azure 防火墙连接器将 Azure 防火墙日志连接到 Azure Sentinel 的好处。

设计清单 - 指标警报

  • 为 SNAT 端口耗尽的风险创建警报规则。
  • 为防火墙的过度使用创建警报规则。
建议 说明
为 SNAT 端口耗尽的风险创建警报规则。 Azure 防火墙为每个后端虚拟机规模实例配置的每个公共 IP 地址提供 2,496 个 SNAT 端口。 请务必提前估计满足发到 Internet 的出站流量的组织要求的 SNAT 端口的数量。 不这样做会增加耗尽 Azure 防火墙上可用 SNAT 端口数的风险,这可能会导致出站连接失败。

使用 SNAT 端口利用率指标监视当前正在使用的出站 SNAT 端口的百分比。 为此指标创建一个警报规则,使其在此百分比超过 95%(例如,由于流量意外增加)时触发,以便可以在 Azure 防火墙上配置其他公共 IP 地址,或使用 Azure NAT 网关 来相应地操作。 配置警报规则时,使用“最大”聚合类型。

若要详细了解如何解释 SNAT 端口利用率指标,请参阅 Azure 防火墙日志和指标概述。 若要详细了解如何在 Azure 防火墙中缩放 SNAT 端口,请参阅使用 Azure NAT 网关缩放 SNAT 端口
为防火墙的过度使用创建警报规则。 Azure 防火墙的最大吞吐量因启用的 SKU 和功能而异。 若要详细了解 Azure 防火墙性能,请参阅 Azure 防火墙性能

如果防火墙接近其最大吞吐量,你可能希望收到警报并故障排除根本原因,因为这可能会影响防火墙的性能。

创建一个警报规则,使其在吞吐量指标超过接近防火墙最大吞吐量的值时触发 - 例如,如果最大吞吐量为 30Gbps,则配置 25Gbps 作为阈值值。 吞吐量指标单位为位/秒。创建警报规则时,选择“平均”聚合类型。

资源运行状况警报

还可以通过服务运行状况为以下资源配置资源运行状况警报。 这可确保你了解虚拟 WAN 环境的可用性,而且可以可以排查网络问题是否是由于 Azure 资源进入不正常状态(而不是自本地环境的问题)导致的。 建议配置在资源状态发生降级或变为不可用时触发的警报。 如果资源状态已发生降级/变为不可用,可以分析这些资源处理的流量、播发到这些资源的路由或创建的分支/VNet 连接数最近是否出现过激增。 如需进一步了解虚拟 WAN 中支持的限制,请参阅 Azure 虚拟 WAN 限制

  • Microsoft.Network/vpnGateways
  • Microsoft.Network/expressRouteGateways
  • Microsoft.Network/azureFirewalls
  • Microsoft.Network/virtualHubs
  • Microsoft.Network/p2sVpnGateways

后续步骤