什么是 Azure NAT 网关指标和警报?

本文概述所有 NAT 网关指标和诊断功能, 并提供有关如何使用指标和警报对 NAT 网关资源进行监视、管理和故障排除的一般指导。

Azure NAT 网关提供以下诊断功能:

  • 通过 Azure Monitor 提供的多维指标和警报。 可以使用这些指标来监视和管理 NAT 网关,并帮助你排查问题。

  • Network Insights:Azure Monitor Insights 提供可视化工具来查看、监视和帮助你诊断 NAT 网关资源的问题。 Insights 提供 Azure 设置和指标仪表板的拓扑图。

示意图显示了包含虚拟机的 NAT 网关资源。

图:用于出站到 Internet 的 Azure NAT 网关

指标概述

NAT 网关在 Azure Monitor 中提供以下多维指标:

指标 说明 建议的聚合 维度
字节 处理的入站和出站字节数 Sum 方向(传入;传出)协议 (6 TCP; 17 UDP)
数据包数 处理的入站和出站数据包数 Sum 方向(传入;传出)协议 (6 TCP; 17 UDP)
丢弃的数据包数 NAT 网关丢弃的数据包数 Sum /
SNAT 连接计数 给定时间间隔内的新 SNAT 连接数 Sum 连接状态(尝试、失败)协议 (6 TCP; 17 UDP)
SNAT 连接总数 活动 SNAT 连接总数 Sum 协议 (6 TCP; 17 UDP)
数据路径可用性 NAT 网关的数据路径的可用性。 用于确定 NAT 网关终结点是否可用于出站流量流。 平均值 可用性 (0, 100)

注意

对于任何 NAT 网关指标,不建议使用计数聚合。 计数聚合将增加指标值的数量,而不是指标值本身。 请改用 Sum 聚合来获取以下三个指标的最佳数据值表示形式:连接计数、字节和数据包。

对于数据路径可用性指标,请使用平均值作为其最佳表示运行状况数据。

有关聚合类型的信息,请参阅聚合类型

在何处查找 NAT 网关指标

可以在 Azure 门户的以下位置中找到 NAT 网关指标。

  • NAT 网关的资源页面中的“监视”下的“指标”页面。

  • NAT 网关的资源页面中的“监视”下的“见解”页面。

    该屏幕截图显示了 NAT 网关概述中的“见解”和“指标”选项。

  • “指标”下的 Azure Monitor 页面。

    该屏幕截图显示了 Azure Monitor 的“指标”部分。

若要查看给定 NAT 网关资源的任何一项指标,请执行以下操作:

  1. 选择要监视的 NAT 网关资源。

  2. 在“指标”下拉菜单中,选择提供的指标之一。

  3. 在“聚合”下拉菜单中,选择指标概述表中列出的推荐聚合。

    NAT 网关资源中设置的指标的屏幕截图。

  4. 若要调整所选指标显示在指标图上的时间范围,或调整所选指标的测量频率,请选择指标页面右上角的“时间”窗口并进行调整。

    该屏幕截图显示了 NAT 网关资源中的指标时间设置配置。

如何使用 NAT 网关指标

以下部分详细介绍了如何使用每个 NAT 网关指标来监视、管理和排查 NAT 网关资源问题。

字节

“字节”指标显示通过 NAT 网关出站和进行入站返回以响应出站连接的数据量。

此指标可用于:

  • 查看通过 NAT 网关处理以连接出站或返回入站的数据量。

若要查看通过 NAT 网关传递的数据量:

  1. 选择要监视的 NAT 网关资源。

  2. 在“指标”下拉菜单中,选择“字节”指标。

  3. 在“聚合”下拉菜单中,选择“总和”。

  4. 选择“添加筛选器”。

  5. 在“属性”下拉菜单中,选择“方向(传出 | 传入)”。

  6. 在“值”下拉菜单中,选择“传出”和/或“传入”。

  7. 若要在指标图中将入站或出站处理的数据显示为单独的线条,请选择“应用拆分”。

  8. 在“值”下拉菜单中,选择“方向(传出 | 传入)”。

数据包数

数据包指标显示通过 NAT 网关传递的数据包数。

此指标可用于:

  • 验证流量是否通过 NAT 网关出站或入站返回。

  • 查看通过 NAT 网关出站或入站返回的流量。

若要查看通过 NAT 网关发送的出站和/或入站数据包数,请按照 字节部分中的相同步骤操作。

删除的数据包数

“丢弃的数据包”指标显示当流量出站或入站返回以响应出站连接时 NAT 网关丢弃的数据包数。

此指标可用于:

  • 检查丢弃数据包的时段是否与 SNAT 连接计数指标的失败 SNAT 连接时段相吻合。

  • 帮助确定你是否遇到出站连接失败或 SNAT 端口耗尽的模式。

丢弃数据包的可能原因:

  • 出站连接失败可能会导致丢弃数据包。 导致连接失败的原因有多种。 请参阅 NAT 网关连接故障排除指南,以便进行进一步诊断。

SNAT 连接计数

“SNAT 连接计数”指标显示指定时间范围内的新 SNAT 连接数。 此指标可通过“尝试”和“失败”连接状态进行筛选。 如果失败连接的数量大于零,则表示 SNAT 端口已耗尽。

此指标可用于:

  • 评估出站连接的运行状况。

  • 帮助诊断 NAT 网关是否遇到 SNAT 端口耗尽的情况。

  • 帮助确定你是否遇到出站连接失败的模式。

若要查看连接的连接状态,请执行以下操作:

  1. 选择要监视的 NAT 网关资源。

  2. 在“指标”下拉菜单中,选择“SNAT 连接计数”指标。

  3. 在“聚合”下拉菜单中,选择“总和”。

  4. 选择“添加筛选器”。

  5. 在“属性”下拉菜单中,选择“连接状态”。

  6. 在“值”下拉菜单中,选择“尝试”和/或“失败”。

  7. 若要在指标图中将尝试的连接和失败的连接显示为单独的线条,请选择“应用拆分”。

  8. 在“值”下拉菜单中,选择“连接状态”。

    指标配置的屏幕截图。

SNAT 连接总数

“SNAT 连接总数”指标显示通过 NAT 网关传递的活动 SNAT 连接总数。

使用此指标可以:

  • 评估通过 NAT 网关传递的连接量。

  • 确定是否已快要达到 NAT 网关的连接限制。

  • 帮助评估是否遇到出站连接失败模式。

连接失败的可能原因:

注意

当 NAT 网关附加到子网和公共 IP 地址时,Azure 平台会通过执行运行状况检查来验证 NAT 网关是否正常。 这些运行状况检查显示在 NAT 网关的 SNAT 连接计数指标中。 运行状况检查相关的连接量可能会有所不同,因为运行状况检查服务经过优化,但可忽略不计,并且不会影响 NAT 网关连接出站的能力。

Datapath 可用性

数据路径可用性指标衡量 NAT 网关资源在一段时间内的运行状况。 此指标指示 NAT 网关是否可用于将出站流量定向到 Internet。 此指标反映了 Azure 基础结构的运行状况。

使用此指标可以:

  • 监视 NAT 网关的可用性。

  • 调查部署 NAT 网关的平台,并确定其是否正常运行。

  • 查明某个事件是与 NAT 网关还是底层数据平面相关。

数据路径可用性下降的可能原因包括:

警报

可以在 Azure Monitor 中为所有 NAT 网关指标配置警报。 在监视数据中发现重要情况时,这些警报会主动通知你。 它们允许识别和解决有关 NAT 网关的潜在问题。

有关指标警报工作原理的详细信息,请参阅 Azure Monitor 指标警报。 以下指南介绍如何为 NAT 网关配置一些常见和推荐的警报类型。

有关数据路径可用性降级的警报

设置有关数据路径可用性的警报,以帮助检测 NAT 网关运行状况方面的问题。

建议的指导是,当 NAT 网关的数据路径可用性连续 15 分钟低于 90% 时发出警报。 此配置指示 NAT 网关资源进入降级状态。

若要设置数据路径可用性警报,请执行以下步骤:

  1. 从 NAT 网关资源页面中,选择“警报”。

  2. 选择“创建警报规则”。

  3. 从信号列表中,选择“数据路径可用性”。

  4. 从“运算符”下拉菜单中,选择“小于”。

  5. 从“聚合类型”下拉菜单中,选择“平均”。

  6. 在“阈值”框中输入“90%”。

  7. 从“单位”下拉菜单中,选择“计数”。

  8. 从“聚合粒度(时段)”下拉菜单中,选择“15 分钟”。

  9. 通过提供名称、通知类型和触发警报时执行的操作类型,为警报创建“操作”。

  10. 在部署操作之前,请测试操作组。

  11. 选择“创建”以创建警报规则。

注意

聚合粒度是测量数据路径可用性以确定其是否低于阈值的时间段。 将聚合粒度设置为小于 5 分钟可能会触发检测数据路径中噪声的误报警报。

SNAT 端口耗尽的警报

在“SNAT 连接计数”指标上设置警报,以在 NAT 网关上出现连接失败时获得通知。 如果失败连接的数量大于零,则表示你已达到 NAT 网关的连接限制,或者已达到 SNAT 端口耗尽的情况。 请进一步调查以确定这些失败的根本原因。

若要创建警报,请使用以下步骤:

  1. 从 NAT 网关资源页面中,选择“警报”。

  2. 选择“创建警报规则”。

  3. 从信号列表中,选择“SNAT 连接计数”。

  4. 从“聚合类型”下拉菜单中,选择“总计”。

  5. 从“运算符”下拉菜单中,选择“大于”。

  6. 从“单位”下拉菜单中,选择“计数”。

  7. 在“阈值”框中,输入 0。

  8. 在“按维度拆分”部分,选择“维度名称”下的“连接状态 ”。

  9. 在“维度值”下,选择“失败的连接数”。

  10. 从“何时评估”部分的“检查间隔”下拉菜单下选择“1 分钟”。

  11. 对于回溯期,请从下拉菜单选项中选择“5 分钟”。

  12. 通过提供名称、通知类型和触发警报时执行的操作类型,为警报创建“操作”。

  13. 在部署操作之前,请测试操作组。

  14. 选择“创建”以创建警报规则。

注意

NAT 网关资源上很少出现 SNAT 端口耗尽的情况。 如果发现 SNAT 端口耗尽,请检查 NAT 网关的空闲超时计时器是否设置为高于默认时长(4 分钟)。 如果为空闲超时计时器设置的时长较长,则可能会导致 SNAT 端口处于开启状态的时间也较长,从而导致更快地耗尽 SNAT 端口库存。 你还可以使用其他公共 IP 缩放 NAT 网关,以增加 NAT 网关的总体 SNAT 端口库存。 若要排查此类问题,请参阅 NAT 网关连接故障排除指南

NAT 网关资源运行状况的警报

Azure 资源运行状况提供了 NAT 网关资源的运行状况状态的相关信息。 NAT 网关的资源运行状况通过测量 NAT 网关终结点的数据路径可用性来进行评估。 可设置警报,让其在 NAT 网关资源的运行状况发生变化时通知你。 若要详细了解 NAT 网关资源运行状况和设置警报,请参阅:

网络见解

通过 Azure Monitor 网络见解,可直观了解 Azure 基础结构设置,并从预配置的指标仪表板查看 NAT 网关资源的所有指标。 这些可视化工具可帮助你诊断和排查 NAT 网关资源的任何问题。

查看 Azure 体系结构设置的拓扑

若要查看 Azure 中的设置的拓扑图,请执行以下操作:

  1. 在 NAT 网关的资源页面中,从“监视”部分中选择“见解”。

  2. 在“见解”的登陆页面上,显示了 NAT 网关设置的拓扑图。 此图显示网络的不同组件(子网、虚拟机、公共 IP 地址)之间的关系。

  3. 将鼠标悬停在拓扑图中的任何组件上,即可查看配置信息。

    该屏幕截图显示了 NAT 网关中的“见解”部分。

在仪表板中查看所有 NAT 网关指标

指标仪表板可用于更好地了解 NAT 网关资源的性能和运行状况。 指标仪表板在单个页面上显示 NAT 网关的所有指标的视图。

  • 选择“显示指标窗格”时,可以在仪表板中查看所有 NAT 网关指标。

    “显示指标”窗格的屏幕截图。

  • 选择“查看详细指标”时,可以查看所有 NAT 网关指标的完整页面视图。

    “查看详细指标”的屏幕截图。

有关每个指标显示的内容以及如何分析这些指标的详细信息,请参阅如何使用 NAT 网关指标

指标 FAQ

NAT 网关有哪些类型的指标可用?

NAT 网关支持多维指标。 可以按不同维度筛选多维指标,以便更深入地了解所提供的数据。 SNAT 连接计数指标允许按“已尝试”和“失败的连接”筛选连接,使你能够区分 NAT 网关创建的不同类型的连接。

请参阅指标概述表中的维度列,了解每个 NAT 网关指标的可用维度。

如何长期存储 NAT 网关指标?

所有平台指标都存储 93 天。 如果需要长期访问 NAT 网关指标数据,可以使用指标 REST API 检索 NAT 网关指标。 若要详细了解如何使用 API,请参阅 Azure 监视 REST API 演练

注意

诊断设置不支持将多维指标导出到其他位置(例如 Azure 存储和 Log Analytics)。

若要检索 NAT 网关指标,请使用指标 REST API。

如何解释指标图表?

在 Azure 指标资源管理器中创建、自定义或解释图表时如果遇到问题,请参阅排查指标图表问题

后续步骤