Azure 负载均衡器运行状况探测

Azure 负载均衡器运行状况探测是一项检测应用程序实例的运行状况的功能。 它向实例发送请求,检查它们是否可用并对请求做出响应。 运行状况探测可配置为使用不同的协议,例如 TCP、HTTP 或 HTTPS。 这是一项重要功能,因为它有助于检测应用程序故障、管理负载和计划故障时间。

Azure 负载均衡器规则需要运行状况探测来检测终结点状态。 运行状况探测和探测响应的配置决定了哪些后端池实例将接收新连接。 使用运行状况探测来检测应用程序是否失败。 生成对运行状况探测的自定义响应。 将运行状况探测用于流控制,以管理负载或计划的停机时间。 如果运行状况探测失败,负载均衡器将会停止向相应的运行不正常实例发送新连接。 出站连接不受影响,仅入站连接受影响。

探测协议

运行状况探测支持多个协议。 可用的具体运行状况探测协议因负载均衡器 SKU 而异。 此外,服务的行为也因负载均衡器 SKU 而异,如下表所述:

SKU 探测协议 探测停止行为
Standard TCP、HTTP、HTTPS 所有探测停止,所有 TCP 流继续。
基本 TCP、HTTP 所有探测停止,所有 TCP 流过期。

探测属性

运行状况探测有以下属性:

运行状况探测属性名称 详细信息
名称 运行状况探测的名称。 这是用于定义运行状况探测的名称
协议 运行状况探测协议。 这是你希望运行状况探测使用的协议类型。 选项包括:TCP、HTTP、HTTPS
端口 运行状况探测的端口。 在运行状况探测连接到虚拟机以检查其运行状况时,希望运行状况探测使用的目标端口
间隔(秒) 运行状况探测的间隔时间。 对虚拟机进行两次连续运行状况检查尝试的不同探测之间的时间(以秒为单位)
使用者 使用此特定运行状况探测的负载均衡器规则列表。 应至少有一个使用运行状况探测的规则才能生效

探测配置

运行状况探测配置由以下元素组成:

运行状况探测配置 详细信息
协议 运行状况探测协议。 这是你希望运行状况探测使用的协议类型。 可用选项包括:TCP、HTTP、HTTPS
端口 运行状况探测的端口。 运行状况探测连接到虚拟机以检查虚拟机的运行状况时你希望运行状况探测使用的目标端口。 必须确保虚拟机也在侦听此端口(即端口打开)。
时间间隔 运行状况探测的间隔时间。 连续对虚拟机尝试进行运行状况检查的间隔时间(以秒为单位)

探测协议

可将运行状况探测使用的协议配置为以下选项之一:TCP、HTTP、HTTPS。

方案 TCP 探测器 HTTP/HTTPS 探测
概述 TCP 探测通过使用定义的端口执行三方开放式 TCP 握手来初始化连接。 TCP 探测使用四向闭合式 TCP 握手来终止连接。 HTTP 和 HTTPS 颁发具有指定路径的 HTTP GET。 这两个探测都支持 HTTP GET 的相对路径。 与 HTTP 探测一样,HTTPS 探测中也添加了传输层安全性 (TLS)。 如果探测端口也是服务的侦听器,可以使用 HTTP/HTTPS 探测来实现你自己的逻辑,以便从负载均衡器中删除实例。
探测失败行为 如果出现以下情况,TCP 探测将会失败:
1. 实例上的 TCP 侦听器在超时期限内根本未做出响应。 根据超时的探测请求(配置为标记探测停止之前未获应答的请求)数目,已将探测标记为停止。
2. 探测从实例接收 TCP 重置。
如果出现以下情况,HTTP/HTTPS 探测将会失败:
1. 探测端点返回非 200 的 HTTP 响应代码(例如,403、404 或 500)。
2. 探测端点在最小探测间隔和 30 秒超时时间内根本不响应。 在探测标记为未运行并且达到所有超时间隔的总和之前,多个探测请求可能无应答。
3. 探测端点通过 TCP 重置关闭连接。
探测行为 在以下情况下,会将 TCP 运行状况探测视为正常,并将后端端点标记为正常:
1. VM 启动后,运行状况探测成功。
2. 处于正常状态的任何后端端点都符合接收新流的条件。
如果实例在超时期限内做出响应并返回 HTTP 状态 200,则将运行状况探测标记为运行。 在以下情况下,会将 HTTP/HTTPS 运行状况探测视为正常,并将后端端点标记为正常:
1. VM 启动后,运行状况探测成功。
2. 处于正常状态的任何后端端点都符合接收新流的条件。

注意

HTTPS 探测要求使用在整个链中的最小签名哈希为 SHA256 的证书。

探测停止行为

方案 TCP 连接 UDP 数据报
单个实例向下探测 新的 TCP 连接会接替剩余的正常后端终结点。 到此后端终结点已建议的 TCP 连接将继续。 现有 UDP 流移动到后端池中另一个正常的实例。
所有实例向下探测 没有新流发送到后端池。 如果后端池具有多个后端实例,标准负载均衡器将允许已建立的 TCP 流继续运行。 基本负载均衡器会终止发往后端池的所有现有 TCP 流。 所有现有 UDP 流终止。

探测间隔和超时

间隔值可确定运行状况探测检查来自后端池实例的响应的频率。 如果运行状况探测失败,则会立即将后端池实例标记为运行不正常。 如果运行状况探测在下一次正常探测中成功,则 Azure 负载均衡器会将后端池实例标记为正常。 默认情况下,在 Azure 门户中,运行状况探测每隔 5 秒就会尝试检查一次已配置的运行状况探测端口,但可以显式设置为另一个值。

为了确保收到及时的响应,HTTP/S 运行状况探测具有内置的超时。 下面是 TCP 和 HTTP/S 探测的超时持续时间:

  • TCP 探测超时持续时间:不适用(配置探测间隔持续时间过后探测将失败,并且发送下一个探测)
  • HTTP/S 探测超时持续时间:30 秒

对于 HTTP/S 探测,如果配置的间隔时间超过上述超时期限,则运行状况探测将超时,如果在超时期间未收到响应,则运行状况探测将失败。 例如,如果 HTTP 运行状况探测配置为探测间隔为 120 秒(每 2 分钟)一次,并且前 30 秒内未收到探测响应,则探测将达到其超时期限并失败。 当配置的间隔短于上述超时时段时,如果在配置的间隔时段完成之前未收到任何响应,则运行状况探测会失败,会立即发送下一探测。

设计指南

  • 为应用程序设计运行状况模型时,探测后端终结点上可以反映该实例以及应用程序服务的运行状况的端口。 应用程序端口和探测端口不必相同。 在某些情况下,探测端口可以不同于应用程序使用的端口,但通常建议探测使用相同的端口。

  • 有效的方案是让应用程序生成运行状况探测响应,并向负载均衡器发出信号,表明实例是否应接收新连接。 可以通过使运行状况探测发生故障来操控探测响应,以便限制向某个实例传送新连接。 可以准备应用程序的维护,并发起到应用程序的连接传出流量。 在标准负载均衡器中,在空闲超时或连接关闭之前,探测关闭信号会始终允许 TCP 流继续运行。

  • 对于 UDP 负载均衡的应用程序,从后端终结点生成自定义运行状况探测信号。 对于与相应的侦听器匹配的运行状况探测,使用 TCP、HTTP 或 HTTPS。

  • 标准负载均衡器HA 端口负载均衡规则。 所有端口都进行负载均衡,单个运行状况探测响应必须反映整个实例的状态。

  • 不要通过接收运行状况探测的实例在虚拟网络中的另一个实例上转换或代理某个运行状况探测。 此配置可能导致方案中出现故障。 例如:在负载均衡器后端池中部署一组第三方设备,以便为设备提供可伸缩性和冗余。 配置运行状况探测来探测由第三方设备代理或转换成设备后面的其他虚拟机的端口。 如果探测用于将请求转换或代理到设备后面其他虚拟机的同一端口,则来自单个虚拟机的任何探测响应会将设备标记为关闭。 此配置可能导致应用程序出现级联故障。 触发器可以是导致负载均衡器将设备实例标记为关闭的间歇性探测失败。 此操作可能会禁用应用程序。 请探测设备本身的运行状况。 选择用于确定运行状况信号的探测是网络虚拟设备 (NVA) 方案的重要考虑因素。 请咨询应用程序供应商,了解哪种运行状况信号适合此类方案。

  • 如果在虚拟机中配置有多个接口,请确保在收到探测的接口上响应探测。 可能需要根据每个接口,对 VM 中的此地址进行源网络地址转换。

  • 使用 Azure PowerShell、Azure CLI、模板或 API 时,不强制使用或检查探测定义。 仅在使用 Azure 门户时才进行探测验证测试。

  • 如果运行状况探测出现波动,负载均衡器会等待更长时间,然后将后端终结点重新置于正常状态。 这段额外的等待时间可保护用户和基础结构,是在策略中有意指定的。

  • 确保虚拟机实例正在运行。 对于后端池中每个正在运行的实例,运行状况探测会检查可用性。 如果某个实例已停止,则只有重启该实例才会对其进行探测。

  • 不要为虚拟网络配置 Azure 拥有的包含 168.63.129.16 的 IP 地址范围。 该配置与运行状况探测的 IP 地址发生冲突,并且可能导致方案失败。

  • 若要测试运行状况探测故障或者将单个实例标记为停止,请使用网络安全组显式阻止该运行状况探测。 创建 NSG 规则以阻止目标端口或源 IP,以模拟探测故障。

  • 与负载均衡规则不同,入站 NAT 规则不需要附加运行状况探测。

  • 不建议使用 NSG 规则阻止 Azure 负载均衡器运行状况探测 IP 或端口。 这是一种不支持的方案,并且可能导致 NSG 规则产生延迟效果,从而导致运行状况探测不准确地表示后端实例的可用性。

监视

标准负载均衡器通过 Azure Monitor 公开每个终结点和后端终结点的运行状况探测状态。 其他 Azure 服务或合作伙伴应用程序可以使用这些指标。 基本负载均衡器不支持 Azure Monitor 日志。

探测源 IP 地址

要使 Azure 负载均衡器的运行状况探测将实例标记为运行,必须在任何 Azure 网络安全组和本地防火墙策略中允许 168.63.129.16 IP 地址。 AzureLoadBalancer 服务标记在网络安全组中标识此源 IP 地址,默认允许运行状况探测流量。 可在此处了解此 IP 的相关详细信息。

如果在防火墙策略中不允许使用探测的源 IP,运行状况探测将会失败,因为它无法访问实例。 反过来,由于运行状况探测失败,Azure 负载均衡器会将实例标记为 -down-。 这种错误的配置可能导致负载均衡的应用程序方案失败。 所有 IPv4 负载均衡器运行状况探测源自 IP 地址 168.63.129.16(源)。 IPv6 探测使用链接本地地址 (fe80::1234:5678:9abc) 作为源。 对于双堆栈 Azure 负载均衡器,必须为 IPv6 运行状况探测配置网络安全组才能正常运行。

限制

  • HTTPS 探测不支持使用客户端证书进行相互身份验证。

  • HTTP 探测不支持对探测后端使用主机名。

  • 启用 TCP 时间戳可能会导致限制或其他性能问题,从而导致运行状况探测超时。

  • 虚拟机规模集不支持基本 SKU 负载均衡器运行状况探测。

  • 出于安全考虑,HTTP 探测不支持探测以下端口:19、21、25、70、110、119、143、220、993。

后续步骤