ExpressRoute 的计划内维护指南
ExpressRoute 线路和直接端口配置了与位于 Microsoft 对等互连位置的 Microsoft Enterprise Edge (MSEE) 设备的主连接和辅助连接。 这些连接是在物理上不同的设备上建立的,可在发生计划内或计划外事件时提供从本地到 Azure 资源的可靠连接。
本文介绍了在 ExpressRoute 线路维护期间发生的事件,并提供了应采取的操作,以最大程度地减少受计划内或计划外维护影响的服务中断。
准备维护
MSEE 设备需要进行维护,以提高平台可靠性、应用安全修补程序、更换故障硬件等。需要对 Microsoft Enterprise Edge 路由器 (MSEE) 路由器执行维护操作,以改进 ExpressRoute 线路服务或应用新的软件版本。 维护活动是提前计划和安排的,可在最大程度上减少对服务的影响。
ExpressRoute 线路的复原能力
ExpressRoute 线路的复原能力是通过与位于 ExpressRoute 位置的两个 MSEE 建立的两个连接来实现的。
Microsoft 需要来自连接服务提供商或网络边缘的双重 BGP 会话 - 每个 MSEE 一个。 为了符合与 ExpressRoute 线路关联的 SLA(服务级别协议),必须在 MSEE 路由器和边缘路由器之间同时建立双重 BGP 会话。
启用维护警报
在安排计划内维护时,你至少会在工作窗口前 14 天通过 Azure 服务运行状况通知收到通知。 使用服务运行状况,可以为 ExpressRoute 线路维护配置警报,查看计划内和计划性维护。 要详细了解 ExpressRoute 维护的服务运行状况,请参阅《查看和配置 ExpressRoute 维护警报》。 订阅 Azure 服务运行状况以提前收到维护事件的通知至关重要。
如何安排维护事件
MSEE 的计划内维护安排在两个不同的时间窗口进行。 这种分离是为了确保通过 ExpressRoute 线路的连接不会因维护事件而中断,并且至少存在一个路径始终可用于访问 Azure 服务。
在维护期间,我们会启用 AS 路径预置,以允许流量正常排出到冗余路径。 AS 路径预置是通过将 AS 12076(8 倍)添加到指向本地的 BGP 路由和 ExpressRoute 网关连接的开头来实现的。 需要确保路径中的任何本地设备设置为接受 AS 路径预置,并允许来自本地的流量移动到冗余的 ExpressRoute 路径。
请与服务提供商联系,确认其是否已设置为允许在连接前面添加 AS 路径(如果它们正在管理网络)。
MSEE 路由器与 Microsoft 核心网络之间的维护活动
在维护活动期间,本地网络与 MSEE 之间的 BGP 会话可能处于已建立状态,并且正在播发从本地网络到 MSEE 路由器的路由。 在这种情况下,不能仅依赖于边缘路由器上是否存在已建立的 BGP 会话来确定连接的完整性。 路由策略可能会强制将流量发送到特定连接。 此设置可能会导致流量丢弃,因为流量路由到正在进行维护的连接,并且返回的流量通过冗余路径。 为了避免发生流量丢弃,边缘路由器上的设置必须配置为在连接收到来自 AS 12076 的 BGP 播发时转发流量,并将流量转发到具有最佳 BGP 指标的连接。 当主连接和辅助连接中的 BGP 指标相同时,会对流量进行负载均衡。
验证 ExpressRoute 线路故障转移
完成 ExpressRoute 线路激活后,在生产环境中使用之前,建议的做法是运行故障转移测试,以验证客户的边缘路由器 BGP 配置是否正确。
验证 ExpressRoute 线路故障转移的过程可以分两步执行:
关闭本地边缘路由器与 MSEE 路由器上主连接之间的 BGP 会话。 此操作会强制流量仅通过辅助连接。 可以使用
Get-AzExpressRouteCircuitStats
命令监视 MSEE 连接上的流量统计信息。 BitsInPerSecond 和 BitsOutPerSecond 流量指标应仅在当前处于活动状态的路径上递增。成功完成测试后,转到第二步。
关闭本地边缘路由器与辅助 MSEE 连接之间的 BGP 会话。 重复步骤 1 中的验证操作,以验证是否流量仅在主路径上递增。
可以通过在从本地到 MSEE 的每个路径上引入 AS 路径预置来运行更多测试,以验证流量流故障转移。 可以与服务提供商合作来执行类似的测试,以从提供商边缘向本地网络引入 AS 路径预置。 应为 ExpressRoute 专用对等互连和 ExpressRoute Microsoft 对等互连验证所述的故障转移过程。
要在故障转移测试中检查 BGP 会话的状态,可以使用验证 ExpressRoute 连接文档中所述的准则。
ExpressRoute 线路的故障转移验证可降低在计划内 ExpressRoute 线路维护期间发生中断的风险。
如果尚未完成 ExpressRoute 线路故障转移的验证,但 ExpressRoute 线路已投入生产,则可安排客户在工作时间外进行维护并执行故障转移测试。
注意
一般情况下,在有状态设备(如防火墙)上终止 ExpressRoute BGP 连接可能会导致 Azure 或 ExpressRoute 服务提供商在进行计划内或计划外维护期间出现故障转移问题。 应对设置进行评估,以确保流量能够正确地进行故障转移,并且在可能的情况下终止无状态设备上的 BGP 会话。
监视 ExpressRoute 线路
应通过 ExpressRoute 线路跟踪连接的状态。 跟踪网络连接的健康状况对于响应不正常状态并及时进行修正非常重要。 在监视数据中发现造成负面影响的条件时,Azure Monitor 警报会主动发出通知。
查看 ExpressRoute 线路和直接端口的 ExpressRoute 监视的可用指标。 至少应配置面向 ARP 可用性、BGP 可用性和线路协议触发的警报。 然后配置在发生服务中断时要发送的电子邮件通知。
可以使用适用于 ExpressRoute 的连接监视器提升监视器信息。 连接监视器是基于云的网络监视解决方案,可监视 Azure 云部署和本地网络(分支机构等)之间的连接。 此服务不仅用于跟踪服务中断,还用于跟踪服务的端到端性能下降。
后续步骤
- 了解适用于 ExpressRoute 的网络见解,以监视 ExpressRoute 线路并对其进行故障排除。