Azure 虚拟机中的可靠性

Azure 虚拟机提供按需、可缩放的计算资源。作为基础基础结构服务，它旨在为任务关键型工作负荷提供企业级可靠性和可用性。

使用 Azure 时，可靠性是共同的责任。 Azure 提供了一系列支持复原和恢复的功能。你负责了解这些功能如何在你使用的所有服务中工作，并选择满足业务目标和运行时间目标所需的功能。

本文介绍如何使虚拟机能够灵活应对各种潜在的中断和问题，包括暂时性故障、可用性区域中断、区域中断和服务维护。它还介绍了如何使用备份从其他类型的问题中恢复，并重点介绍了有关虚拟机服务级别协议（SLA）的一些关键信息。

重要

考虑虚拟机（VM）的可靠性时，还需要考虑在 VM 上运行的磁盘、网络基础结构和应用程序的可靠性。如果其他组件不同样具有复原能力，则仅提高 VM 的复原能力可能会造成有限的影响。根据复原能力要求，可能需要跨多个区域进行配置更改。

生产部署建议

有关如何部署 VM 以支持解决方案的可靠性要求以及可靠性如何影响体系结构的其他方面的详细信息，请参阅 Azure Well-Architected Framework 中虚拟机和规模集的体系结构最佳做法。

可靠性体系结构概述

VM 是 Azure 中的基本计算单元，无论是自行预配 VM 还是使用以透明方式预配和管理这些 VM 的其他 Azure 计算服务。

单个 VM 也称为 单个实例 VM。它在特定主机上运行，该主机是物理服务器。大多数 VM 与其他 VM 共享其主机。

创建 VM 时，可能会影响它们在底层基础结构中运行的位置。通常，可以根据可靠性、延迟和隔离要求做出放置决策。 Azure 提供了多个配置选项，这些配置选项会影响 VM 的放置方式。

地区： 可以选择 VM 应在其中运行的 Azure 区域。区域是一个地理区域，可能包含多个数据中心，每个数据中心都有大量主机。
可用性区域：可用性区域是每个 Azure 区域中物理上独立的数据中心组。在支持可用性区域的区域中，可以选择 VM 在其中运行的区域。有关详细信息，请参阅可用性区域故障的复原能力。
可用性集： 可用性集是 VM 的逻辑分组，使 Azure 能够了解应用程序的构建方式，以提供冗余和可用性。

使用可用性集时，Azure 跨不同的容错域分发一组 VM。此分发通过将共用同一电源和网络交换机的 VM 归为一组，将本地化硬件故障的风险降到最低。

可用性集还可以在不同的更新域中放置不同的 VM，从而控制 Azure 平台如何推出平台更新。通过使用更新域，可以确保一次只重启一部分 VM 进行更新。
邻近放置组： 对于需要在 VM 之间实现最低延迟的工作负荷，可以使用邻近放置组来确保 Azure 将 VM 物理地彼此靠近。但是，邻近放置意味着数据中心中断可能会影响组中的所有 VM。若要实现较高的可靠性，可能需要在不同的可用性区域中预配多个邻近放置组。
专用主机： 可以使用 Azure 专用主机来预配运行一个或多个 VM 的你自己的物理服务器，例如，出于严格的合规性要求。但是，预配专用主机时，其数据中心内的中断可能会影响该主机上的所有 VM。若要实现较高的可靠性，可能需要在不同的可用性区域中预配多个专用主机。

如果创建一组执行类似功能的 VM，请考虑使用 Azure 虚拟机规模集创建和管理 VM 作为组。规模集还提供更多可靠性选项，例如将 VM 分散到多个可用性区域。

有关 VM 可用性的详细信息，请参阅虚拟机的可用性选项。

暂时性故障的复原能力

暂时性故障是指组件发生短暂的间歇性故障。这些故障经常出现在云之类的分布式环境中，在运营过程中比较常见。暂时性故障在短时间内自行纠正。应用程序通常可以通过重试受影响的请求来处理暂时性故障，这一点很重要。

与任何云托管的 API、数据库和其他组件通信时，所有云托管的应用程序都应遵循 Azure 暂时性故障处理指南。有关详细信息，请参阅处理暂时性故障的建议。

在 VM 上运行的应用程序应实施适当的故障处理策略，以确保服务中的任何临时中断不会影响工作负荷。

应对可用区故障的弹性

可用性区域是 Azure 区域内物理上独立的数据中心组。当一个区域发生故障时，服务可以故障转移到其他区域。

可以在区域配置中部署单个 VM，这意味着它固定到你选择的单个可用性区域。单独而言，区域 VM 对区域中断并不具备弹性。但是，可以创建多个 VM 并将其放置在不同的可用性区域中，然后将应用程序和数据分散到 VM 实例中。或者，可以使用虚拟机规模集跨多个可用性区域部署一组 VM。

如果未将 VM 配置为区域，则被视为 非区域 或区域。非区域 VM 可能放置在该区域中的任何可用性区域中。如果区域中的任何可用性区域遇到服务中断，则非区域性 VM 可能位于受影响的区域中，并且可能会遇到停机。

区域支持

可将区域 VM 部署到支持可用性区域的任何区域。

但是，某些 VM 类型和大小仅适用于特定区域或区域中的特定区域。若要检查哪些区域和区域支持所需的 VM 类型，请使用以下资源：

若要查看每个区域中可用的 VM 类型，请参阅可用产品（按区域）。
若要检查特定区域的每个区域中支持的 VM 类型和大小，请参阅 “检查 VM SKU 可用性”。

成本

区域 VM 和非区域 VM 之间没有成本差异。

配置可用性区域支持

本部分介绍如何为 VM 实例配置可用性区域支持。

注释

选择要使用的可用性区域时，实际上是在选择逻辑可用性区域。如果你在不同的 Azure 订阅中部署其他工作负载组件，它们可能会使用不同的逻辑可用性区域编号来访问相同的物理可用性区域。有关详细信息，请参阅物理和逻辑可用性区域。

创建区域 VM。 可以使用以下指南创建区域 VM：
将现有 VM 转换为区域配置。 可以从非区域 VM 移动到区域 VM。此过程将在目标可用区创建新的虚拟机（VM），并要求在迁移过程中停止该虚拟机。有关详细信息，请参阅将 Azure 单实例 VM 从区域移到区域目标可用性区域。
更改现有区域 VM 的可用性区域。 无法将区域 VM 移到其他可用性区域。应在所需的可用性区域中部署新的区域虚拟机。
将区域 VM 转换为非区域配置。 无法将区域 VM 转换为非区域配置。需要改为部署新的非区域 VM。

所有区域正常时的行为

本部分介绍配置了可用性区域支持且所有可用性区域都正常运行的 VM 实例时会发生什么情况。

区域之间的流量路由： 你负责在 VM 之间路由流量，包括位于不同可用性区域中的 VM。常见方法包括 Azure 负载均衡器和 Azure 应用程序网关。有关详细信息，请参阅负载均衡选项。
区域之间的数据复制： 你负责需要在 VM 之间发生的任何数据复制，包括跨不同可用性区域中的 VM 进行复制。在 VM 上运行的数据库和其他类似的有状态应用程序通常提供复制数据的功能。

区域故障期间的行为

本部分介绍当 VM 实例配置了可用性区域支持时，您可以期待什么，以及当可用性区域发生中断时的情况。

检测和响应： 你负责检测和响应影响 VM 的区域故障。
- 通知：Azure 不会在区域关闭时自动通知你。但是，可以使用 Azure 资源运行状况监视单个资源的运行状况，并且可以设置资源运行状况警报来通知问题。还可以使用 Azure 服务运行状况来了解服务的总体运行状况，包括任何区域故障，还可以设置服务运行状况警报来通知问题。
活动请求： 在发生区域故障期间，VM 上发生的任何活动请求或其他工作都可能会终止。
预期数据丢失： 区域 VM 磁盘在区域故障期间可能不可用。

如果您使用区域冗余存储 (ZRS) 磁盘，而中断影响到了您的 VM，您可以强制将 ZRS 磁盘从发生故障的 VM 中分离。此方法允许将 ZRS 磁盘附加到另一个 VM。
预期的停机时间： 在可用性区域恢复之前，VM 会保持关闭状态。
流量重新路由： 负责将流量重新路由到正常区域中的其他 VM。

如果配置区域弹性负载均衡器并执行运行状况检查，负载均衡器通常会检测失败的 VM，并且可以将流量路由到正常区域中的其他 VM 实例。

区域恢复

当区域正常时，区域中的 VM 将重启。你负责工作负荷所需的任何区域恢复过程和数据同步。

用于复原的自定义多区域解决方案

将多个 VM 部署到不同的区域时，负责配置和管理复制、负载均衡、故障转移和故障回复进程。

某些应用程序提供内置功能，可在跨多个 VM 进行部署时提供帮助。例如， Azure VM 上的 SQL Server 提供了一组功能来简化跨可用性区域的配置和管理过程。

如果您的应用程序一次仅在单个区域中运行，并且不需要区域之间的近乎即时故障转移，可以考虑使用 Azure Site Recovery 区域到区域灾难恢复（DR）。区域之间的灾难恢复（DR）存在一些重要限制，因此请仔细审视您的需求。

对区域范围的故障的复原能力

VM 是单区域资源。如果区域不可用，VM 也不可用。

用于复原的自定义多区域解决方案

可以将多个 VM 部署到不同的区域，但需要实现复制、负载均衡和故障转移过程。

Site Recovery 是一项服务，可通过将 VM 及其数据复制到次要区域来启用 DR。您几乎可以选择任意 Azure 区域作为辅助区域，包括不成对区域的组合。有关详细信息，请参阅 Azure 到 Azure DR 体系结构。

某些应用程序创建群集或其他构造来复制数据，并在多个 VM 之间分配工作，包括在不同区域中。这些应用程序可以简化多区域解决方案的配置。

有关演示跨多个区域使用 VM 的示例体系结构，请参阅使用 Azure 流量管理器、Azure 防火墙和应用程序网关的多区域负载均衡。

服务维护期间的系统弹性能力

Azure 定期对 VM 执行定期维护，以确保可靠性。有多种方法可以确保工作负荷在维护活动期间保持正常运行：

使用可用性集或虚拟机规模集时，可以配置更新域。更新域有助于通过在不同时间为不同 VM 分配维护活动，从而防止所有 VM 同时重启。
可以使用 维护控制来自定义将维护应用到 VM 的时间。可以使用维护配置来安排维护任务在符合您的工作负荷的时间段进行。
可以接收即将进行的维护活动的通知。

有关详细信息，请参阅来宾更新和主机维护概述。

备份和还原

Azure 备份为虚拟机提供原生备份支持。 Azure 备份创建和管理备份，并为整个 VM（包括所有附加磁盘）提供应用程序一致的保护。需要对多个磁盘或应用程序感知备份进行协调备份时，使用 Azure 备份的 VM 备份解决方案是理想的。但是，对于数据库工作负荷，请考虑提供事务一致性保护和更快的恢复选项的应用程序特定的备份解决方案。

使用适用于 VM 的 Azure 备份，可以根据需要自定义备份频率、保留期和存储配置。有关详细信息，请参阅适用于 VM 的 Azure 备份。

备份还支持附加到 VM 的磁盘。有关详细信息，请参阅 Azure 磁盘备份概述。

对于大多数解决方案，不应只依赖于备份。请改用本指南中所述的其他功能来支持复原要求。但是，备份可以防范其他方法没有的一些风险。有关详细信息，请参阅什么是冗余、复制和备份？。

服务级别协议

Azure 服务的服务级别协议 (SLA) 描述了每个服务的预期可用性，以及解决方案为实现该可用性预期而必须满足的条件。有关详细信息，请参阅联机服务的 SLA。

对于虚拟机，SLA 提供基本的可用性级别。 SLA 中定义的运行时间百分比在您拥有两个或多个 VM 时会增加，并执行以下操作：

将这些 VM 配置为跨两个或更多可用性区域部署。
将这些 VM 配置为部署到可用性集中。

后续步骤

Azure 中的可靠性

Last updated on 2026-02-02

Compartir a través de

Azure 虚拟机中的可靠性

生产部署建议

可靠性体系结构概述

暂时性故障的复原能力

应对可用区故障的弹性

区域支持

成本

配置可用性区域支持

所有区域正常时的行为

区域故障期间的行为

区域恢复

用于复原的自定义多区域解决方案

对区域范围的故障的复原能力

用于复原的自定义多区域解决方案

服务维护期间的系统弹性能力

备份和还原

服务级别协议

后续步骤

相关资源

Recursos adicionales