设计和构建 Azure ExpressRoute 以提供复原能力

Azure ExpressRoute 是一项基本的混合连接服务,因可在本地网络与 Azure 工作负载之间提供具有复原能力和高吞吐量的低延迟专用连接而被广泛使用。 它提供了在本地与 Azure 之间的网络连接中实现可靠性、复原能力和灾难恢复的能力,以确保业务和任务关键型工作负载的可用性。 此功能还能够以可缩放且经济高效的方式扩展对 Azure 资源的访问。

图中展示了通过 ExpressRoute 在本地网络与 Azure 之间建立的连接。

高度可靠、可复原且可用的网络连接是结构良好的系统的基础。 可靠性包含两个原则:复原能力和可用性。 复原能力的目标是防止故障,并在发生故障时将应用程序还原到全面运转状态。 可用性的目的是提供对应用程序或工作负载的持续稳定访问。 请务必根据业务需求和应用程序要求主动规划可靠性。

ExpressRoute 用户依赖于边缘站点、WAN 和可用区的可用性和性能来维持与 Azure 的连接。 但是,这些组件或站点可能因各种原因(例如设备故障、网络中断、天气状况或自然灾害)而遇到故障。 因此,在规划可靠性、复原能力和可用性时,这是用户与其云提供商之间的共同责任。

ExpressRoute 的站点复原能力

有三种 ExpressRoute 复原能力体系结构可用于确保本地与 Azure 之间的网络连接具有高可用性和复原能力。 这些体系结构设计包括:

“最大复原能力”

ExpressRoute 中最大复原能力体系结构的结构旨在消除 Microsoft 网络路径中的任何单一故障点。 此设置是通过使用 ExpressRoute 在两个不同位置配置一对线路以实现站点多样性来实现的。 最大复原能力的目标是提高可靠性、复原能力和可用性,从而确保业务和/或任务关键型工作负载的最高复原能力。 对于此类操作,建议配置最大复原能力。 架构良好的框架是实现可靠性的重要基础,为了实现这种框架,建议采用此体系结构设计。 ExpressRoute 工程团队开发了一个引导式门户体验,来帮助配置最大复原能力。

图中展示了在本地网络与 Microsoft 之间的两个不同对等互连位置配置的一对 ExpressRoute 线路。

高复原能力

高复原能力(也称为多站点或站点复原能力)支持使用同一大都市 (Metro) 区域中的多个站点通过 ExpressRoute 将本地网络连接到 Azure。 高复原能力通过跨两个站点拆分单个线路来提供站点多样性。 第一连接在一个站点建立,第二连接在另一个站点建立。 多站点复原能力的目标是通过引入可实现站点多样性的功能来缓解边缘站点隔离和故障的影响。 站点多样性是通过在大都市内的配对站点之间使用单个线路来实现的,这将针对边缘和区域之间的故障提供复原能力。 高复原能力将提供高于标准复原能力的站点复原能力,但不如最大复原能力。 高复原能力的价格与标准复原能力相同,且在两个站点之间具有相同的延迟。 此体系结构可用于区域中的业务和任务关键型工作负载。

图中展示了在两个不同的对等互连位置配置了两个链路的单个 ExpressRoute 线路。

“标准复原能力”

ExpressRoute 中的标准复原能力是在单个站点上配置了两个连接的一条线路。 内置冗余(主动-主动)将配置为支持在该线路的两个连接之间进行故障转移。 Azure 为此配置的网关提供 Microsoft 企业边缘 (MSEE) 的可用性服务级别协议 (SLA) 保证。 目前,ExpressRoute 会在单个对等互连位置提供两个连接。 如果此站点发生故障,用户可能会失去与其 Azure 工作负载的连接。 此配置也称为“单宿”,因为它表示用户采用的是仅配置了一个对等互连位置的 ExpressRoute 线路。 此配置被视为复原能力最低,因此不建议用于业务或任务关键型工作负载,因为它不提供站点复原能力

图中展示了在单个对等互连位置配置了两个链路的单个 ExpressRoute 线路。

ExpressRoute 的可用区复原能力

Azure 区域是 ExpressRoute 设计和复原策略不可或缺的一部分。 这些区域是托管 Azure 服务的数据中心所在的地理位置。 区域通过专用的低延迟网络进行互连,具有高度可用、可容错且可缩放的特点。

Azure 提供了多种功能来确保区域复原能力。 其中一项功能是可用区。 可用区通过跨区域内的多个物理位置分布,保护应用程序和数据免受数据中心故障的影响。 区域和可用区是应用程序设计和复原策略的核心。 利用可用区,可以在部署中实现更高的可用性和复原能力。 有关详细信息,请参阅区域和可用区

建议将 ExpressRoute 虚拟网络网关部署为跨区域中的可用区提供可用区冗余。 这些可用区是独立的物理位置,具有独立的基础设施(电源、冷却和网络)。 目的是保护本地网络与 Azure 之间的连接免受可用区级别故障的影响。 可用区冗余 ExpressRoute 网关可为访问 Azure 上的任务关键型服务提供复原能力、可伸缩性和更高的可用性。

区域和可用区数据中心中的设备故障或灾难可能会影响虚拟网络中的 ExpressRoute 网关部署。 如果未将网关部署为可用区冗余,则 Azure 数据中心内的此类故障可能会导致用户无法访问其 Azure 工作负载。

如果有现有的非可用区冗余 ExpressRoute 网关,那么现在可以迁移到启用了可用区的网关

建议

以下是可在 ExpressRoute 网络体系结构中确保高可用性、复原和可靠性的建议:

ExpressRoute 线路建议

规划 ExpressRoute 线路或 ExpressRoute Direct

在初始规划阶段,必须要确定是配置 ExpressRoute 线路 还是 ExpressRoute Direct 连接。 ExpressRoute 线路允许在连接服务提供商的帮助下通过专用连接连接到 Azure。 ExpressRoute Direct 支持将本地网络直接扩展到对等互连位置的 Azure 网络。 另外,还需要确定带宽要求和线路 SKU 类型要求,以满足业务需求。

评估多站点冗余 ExpressRoute 线路的复原能力

部署具有最大复原能力的多站点冗余 ExpressRoute 线路后,必须确保通过冗余线路播发本地路由,以充分利用多站点冗余的优势。 若要评估复原能力并测试冗余线路和路由的故障转移,请在此处了解详细信息。

规划主动-主动配置

为了提高复原能力和可用性,Azure 建议在主动-主动模式下操作 ExpressRoute 线路的两个连接。 通过允许两个连接在此模式下运行,Azure 可以根据流对连接之间的网络流量进行负载均衡。

物理层多样性

为了提高复原能力,请计划在本地边缘和对等互连位置(提供程序/Microsoft 边缘位置)之间建立多个路径。 这种配置可以通过利用不同的服务提供商或通过从本地网络路由经过另一个对等互连位置来实现。 为了实现高可用性,必须在整个端到端网络体系结构中确保 ExpressRoute 线路的冗余。 这包括在本地网络中维持冗余,以及在服务提供商处维持冗余。 确保体系结构的这些部分的冗余意味着不应出现单一故障点。

确保已启用并配置 BFD(双向转发检测)

启用 ExpressRoute 的双向转发检测 (BFD) 可以加速 MSEE 设备与配置 ExpressRoute 线路的路由器之间的链路故障检测。 Azure 建议使用 BFD 配置客户本地边缘 (CPE) 设备。 ExpressRoute 可以通过你的边缘路由设备或合作伙伴边缘路由设备进行配置。 Azure 端的 MSEE 设备默认会启用 BFD。

ExpressRoute 网关建议

规划虚拟网络网关

请创建可用区冗余型虚拟网络网关以增强复原能力,并规划不同区域中的虚拟网络网关以实现灾难恢复和高可用性。 利用可用区冗余型网关时,可以在访问 Azure 上的任务关键型可缩放服务时因可用区复原能力而受益。

迁移到可用区冗余型 ExpressRoute 网关

引导式网关迁移体验有助于从未启用 Az 的 SKU 网关迁移到启用了 Az 的 SKU 网关。 此功能允许在同一网关子网中创建额外的虚拟网络网关。 在迁移过程中,Azure 会将控制平面和数据路径配置从现有网关传输到新网关。

灾难恢复和高可用性建议

将 VPN 网关用作 ExpressRoute 的备用方式

当 ExpressRoute 线路不可用时,Azure 建议使用站点到站点 VPN 作为故障转移机制。 ExpressRoute 旨在实现高可用性,且不会在 Azure 网络中造成单一故障点。 但是,在某些情况下,ExpressRoute 线路会因各种原因(例如区域服务降级或自然灾害)而变得不可用。 站点到站点 VPN 可配置为 ExpressRoute 的安全故障转移路径。 如果 ExpressRoute 线路不可用,流量会自动通过站点到站点 VPN 进行路由,从而保持与 Azure 网络的连接。 有关详细信息,请参阅使用站点到站点 VPN 作为 Azure ExpressRoute 的备用方式

启用高可用性和灾难恢复

为了最大限度地提高可用性,ExpressRoute 线路上的客户段和服务提供商段均需在构建时确保可用性和复原能力。 对于灾难恢复,请规划好如何应对自然灾害导致的区域服务中断等情况。 为通过不同区域中的不同对等互连位置配置的多个线路实施可靠的灾难恢复设计。 若要了解详细信息,请参阅:针对灾难恢复进行设计

规划异地冗余

对于灾难恢复规划,我们建议在多个对等互连位置和区域中设置 ExpressRoute 线路。 ExpressRoute 线路可以在同一大都市区或不同的大都市区中创建,通过每个线路的不同路径可以使用不同的服务提供商。 异地冗余 ExpressRoute 线路用于创建可靠的后端网络连接,以便进行灾难恢复。 若要了解详细信息,请参阅针对高可用性进行设计

通过虚拟网络对等互连实现虚拟网络之间的连接

虚拟网络 (VNet) 对等互连提供了一种更高效、更直接的方法,使 Azure 服务能够跨虚拟网络进行通信,而无需虚拟网络网关、额外的跃点或通过公共 Internet 进行传输。 若要在虚拟网络之间建立连接,应实现 VNet 对等互连,以获得最佳性能。 有关详细信息,请参阅关于虚拟网络对等互连管理 VNet 对等互连

监视和警报建议

为 ExpressRoute 线路配置监视和警报

作为基线,我们建议在 Azure Monitor 中配置网络见解,以查看所有 ExpressRoute 线路指标,包括 ExpressRoute Direct 和 Global Reach。 在线路卡片中,可以直观显示对等互连、连接和网关的拓扑和依赖项。 针对线路提供的见解包括可用性、吞吐量和丢包情况。

配置服务运行状况警报,以提供 ExpressRoute 线路维护通知

ExpressRoute 使用 Azure 服务运行状况来通知你计划内和即将进行的 ExpressRoute 线路维护。 通过服务运行状况,你可以在 Azure 门户中查看计划内维护和过去的维护,同时配置最适合自己需求的警报和通知。 在服务运行状况中,可以看到计划内维护和过去的维护。 还可以在服务运行状况中设置警报,以获得有关即将进行的维护的通知。

为 ExpressRoute 配置连接监视器

连接监视器是一个基于云的网络监视解决方案,用于监视 Azure 云部署与本地位置(分支机构等)之间的连接。 连接监视器是基于代理的解决方案。

配置网关运行状况监视和警报

使用 Azure Monitor 设置监视,以确保 ExpressRoute 网关的可用性、性能和可伸缩性。 部署 ExpressRoute 网关时,Azure 会管理网关的计算和功能。 有多个网关指标可用于更好地了解网关的性能。