可靠性的共担责任

在Azure公有云平台中,Azure你共同负责可靠性。 设计和部署的每个工作负荷提供不同的可靠性级别,因此必须从可靠性角度了解谁对每个级别负有主要责任。

为了帮助你更好地了解共同责任的工作原理,尤其是在遇到中断或灾难时,本文介绍了可靠性 的共同责任模型 。 有关如何使用此模型规划灾难恢复的详细信息,请参阅 有关设计灾难恢复策略的建议

可靠性的共担责任模型

可靠性的共同责任模型有三个级别:

  • 核心平台可靠性。 Azure 平台通过底层基础结构、服务和流程为所有客户和所有服务提供基本级别的可靠性。
  • 可靠性增强功能。 Azure提供了一套内置功能和服务,可增强可靠性,例如使用可用性区域、跨多个区域部署和实现备份策略。 虽然 Azure 提供这些功能,但你有责任评估和配置这些功能,使其符合你的要求。 这些要求可包括可靠性、成本、绩效和法规标准合规性。
  • 应用程序。 若要有效使用其他级别,必须设计应用程序和工作负载,以确保可靠性。

显示可靠性的共同责任模型的关系图:核心平台可靠性、可靠性增强功能和应用程序。

Azure 独立负责核心平台的可靠性。 Azure 还负责提供可以使用的可靠性增强功能。 你负责选择和使用合适的组件。

你选择的服务类别 -SaaS、PaaS 或 IaaS - 确定做出的决策类型。 例如,如果使用 SaaS 服务,通常不需要选择使用可用性区域。 如果将 PaaS 服务用于数据层,则可能可以使用自动备份功能。 如果使用 IaaS 服务,通常需要自行规划和实现许多可靠性功能。

注意

服务类别 (SaaS、PaaS 和 IaaS) 作为广泛的服务分组很有用,但你必须了解你对所使用的每个服务的责任。

可靠性指南概述了每个服务在可靠性方面的工作原理,并帮助你做出有关如何配置服务以满足需求的明智决策。

你还负责应用程序和工作负荷设计,并定义可靠性要求,这有助于决定如何设计和配置解决方案。 必须确保设计遵循任何适用的法规或合同要求,例如数据存储的地理位置。

核心平台可靠性

Azure 云平台由大量基础结构、硬件、软件和进程组成,以支持服务部署和管理。 每个组件都设计为具有高复原能力,包含多个硬件冗余,以及基于研究的软件进程。 这些组件共同构成核心平台的可靠性级别。 有关如何Azure提供可靠平台的一些示例包括以下功能:

  • 网络具有冗余链接,并且可以动态绕过故障段。
  • 在每个区域中,数据中心会通过低延迟网络进行连接,从而实现各种数据复制方法。
  • 数据中心设施具有冗余的电源、冷却和网络连接。 现场团队负责操作、保护、监视和管理设施。
  • 硬件(包括群集和机架)在多层具有冗余。
  • 对计算群集、机架和主机的更新遵循受控过程。 平台使用热修补等技术来减少或消除对主机的影响。
  • 软件平台更新和配置更改遵循安全部署做法。
  • Azure 会审核重要的外部供应商,以确保第三方中断不会中断 Azure 服务。
  • 每个 Azure 服务都必须有详细的灾难恢复计划。 Azure在与生产环境匹配的区域进行全区域向下钻取。

所有Azure服务都受益于这些核心平台可靠性功能,以及Azure不断改进。

可靠性增强功能

Azure 提供了许多不同的可靠性增强功能。 尽管Azure负责提供这些功能,但你完全负责根据需要选择和使用适当的功能。 这些功能的一些示例包括:

  • 区域。 Azure 具有 70 多个区域,可以在单个解决方案中使用多个区域来实现异地冗余,满足数据驻留需求,并在全球范围内向用户启用低延迟通信。 若要了解有关区域的详细信息,请参阅 什么是Azure区域?

  • 可用性区域。 许多 Azure 区域支持可用性区域,使你能够跨多个独立的数据中心集分发工作负载。 Azure服务支持可用性区域的方式符合其预期目的,通常通过支持区域部署(固定到单个区域)或区域冗余部署(分布在多个区域)。 若要了解有关可用性区域的详细信息,请参阅 什么是可用性区域?

  • 服务层级。 服务提供一系列适合不同要求的服务和级别。 你负责根据可靠性目标和其他需求选择适当的层。 例如,创建虚拟机时,可以在提供低成本选项的标准磁盘和高级磁盘之间进行选择,以实现更高级别的可用性。

  • 备份。 存储数据的许多 Azure 服务都支持备份,这些备份可能是自动备份、手动备份或两者兼有。 通过使用备份,可以保护工作负荷免受中断以及数据损坏和其他数据丢失事件的影响。 你负责验证备份是否已启用并适当配置备份。

  • 监管。 可以配置平台功能,例如Azure Policy、基于角色的访问控制和Microsoft Entra ID标识保护功能,以一致地强制实施组织的要求。 通过使用这些方法,可以保护工作负荷免受安全事件和意外更改,这些更改可能会导致工作负荷停机或其他工作负荷问题。 Azure 提供了这些治理工具,但你负责配置和维护它们。

重要

了解每个 Azure 服务的服务级别协议 (SLA) 非常重要。 SLA 提供有关服务预期运行时间的重要信息,以及需要满足哪些条件才能使用 SLA。 你负责了解和满足这些条件;Azure不监视或强制实施资格。

有关每个服务的 SLA,请参阅“联机服务的服务级别协议 (SLA)”

应用程序

你负责确保应用程序设计为可复原故障,并遵循其他可靠性最佳做法。 使用 Azure 良好架构框架 的支柱,在工作负载的基本层面推动架构卓越。 可靠性支柱侧重于如何使工作负载和应用程序对不同类型的故障具备抗风险能力,并在发生故障时实现恢复。

后续步骤

除了可靠性,共担责任模型还适用于解决方案的其他部分。 有关安全共担责任模型的详细信息,请参阅“Azure 信任中心”。