Azure HDInsight支持的高可用性服务

为了为你提供分析组件的最佳可用性级别，HDInsight 是使用独特的体系结构开发的，可确保关键服务的高可用性（HA）。 Azure开发了此体系结构的某些组件以提供自动故障转移。其他组件是部署以支持特定服务的标准 Apache 组件。本文介绍 HDInsight 中的 HA 服务模型的体系结构、HDInsight 如何支持 HA 服务的故障转移，以及从其他服务中断中恢复的最佳做法。

注释

本文包含对术语 slave 的引用，该术语Azure不再使用。在从软件中删除该术语后，我们会将其从本文中删除。

高可用性基础结构

HDInsight 提供定制化的基础设施，以确保四个主要服务具有高可用性，并具备自动故障转移功能。

Apache Ambari 服务器
Apache YARN 的应用程序时间线服务器
适用于 Hadoop MapReduce 的作业历史记录服务器
Apache Livy

此基础结构由许多服务和软件组件组成，其中一些组件由Microsoft设计。以下组件对 HDInsight 平台是唯一的：

次级故障转移控制器
主故障转移控制器
从属高可用性服务
掌握高可用性服务

高可用性基础结构。

还有其他高可用性服务，由开源 Apache 可靠性组件支持。 HDInsight 群集上也存在这些组件：

Hadoop 文件系统（HDFS） NameNode
YARN 资源管理器
HBase Master

以下部分提供有关这些服务如何协同工作的更多详细信息。

HDInsight 高可用性服务

Azure支持 HDInsight 群集中下表中的四个 Apache 服务。为了将它们与 Apache 组件支持的高可用性服务区分开来，它们称为 HDInsight HA 服务。

Service	群集节点	群集类型	Purpose
Apache Ambari 服务器	活动头节点	全部	监视和管理群集。
Apache YARN 的应用程序时间线服务器	活动头节点	除 Kafka 之外的所有	维护有关群集上运行的 YARN 作业的调试信息。
适用于 Hadoop MapReduce 的作业历史记录服务器	活动头节点	除 Kafka 之外的所有	维护 MapReduce 作业的调试数据。
Apache Livy	活动头节点	Spark	通过 REST 接口轻松与 Spark 群集交互

注释

HDInsight 企业安全性套餐（ESP）群集目前仅提供 Ambari 服务器高可用性。应用程序时间线服务器、作业历史记录服务器和 Livy 都仅在 headnode0 上运行，在 Ambari 故障转移时不会故障转移到 headnode1。应用程序时间线数据库也位于 headnode0 上，而不是在 Ambari SQL 服务器上。

建筑

每个 HDInsight 群集在主动和待机模式下都有两个头节点。 HDInsight HA 服务仅在头节点上运行。这些服务应始终在活动头节点上运行，并在备用头节点上停止并置于维护模式。

为了维护 HA 服务的正确状态并提供快速故障转移，HDInsight 利用 Apache ZooKeeper（分布式应用程序的协调服务）进行活动头节点选举。 HDInsight 还预配了一些后台Java进程，这些进程协调 HDInsight HA 服务的故障转移过程。这些服务包括：主故障转移控制器、从属故障转移控制器、 master-ha-service 和 从属-ha-service。

Apache ZooKeeper

Apache ZooKeeper 是分布式应用程序的高性能协调服务。在生产环境中，ZooKeeper 通常以复制模式运行，其中，一组复制的 ZooKeeper 服务器形成法定人数。每个 HDInsight 群集都有三个 ZooKeeper 节点，可以用来让三个 ZooKeeper 服务器组成一个仲裁。 HDInsight 有两个 ZooKeeper quorums 彼此并行运行。一个仲裁决定 HDInsight HA 服务应在其上运行的群集中的活动头节点。另一个仲裁用于协调 Apache 提供的高可用性（HA）服务，具体细节见后面的部分。

次级故障转移控制器

从属故障转移控制器在 HDInsight 群集中的每个节点上运行。此控制器负责在每个节点上启动 Ambari 代理和 从属 ha 服务 。它会定期向第一个 ZooKeeper 仲裁查询当前活跃主节点的信息。当主动和备用头节点发生更改时，从属故障转移控制器将执行以下步骤：

更新主机配置文件。
重启 Ambari 代理。

slave-ha-service 负责停止备用头节点上的 HDInsight HA 服务（除 Ambari 服务器外）。

主故障转移控制器

主故障转移控制器在两个头节点上运行。两个主控故障转移控制器都与第一个 ZooKeeper 仲裁通信，以提名它们运行的头节点为活跃头节点。

例如，如果头节点 0 上的主故障转移控制器赢得选举，则进行以下更改：

头节点 0 变为活动状态。
主故障转移控制器在头节点 0 上启动 Ambari 服务器和 master-ha-service 。
另一个主故障转移控制器停止头节点 1 上的 Ambari 服务器和 master-ha-service 。

master-ha-service 仅在活动头节点上运行，它会停止备用头节点上的 HDInsight HA 服务（Ambari 服务器除外），并在活动头节点上启动它们。

故障转移过程

故障转移过程。

健康监控器与主故障转移控制器在每个头节点上运行，以向 Zookeeper 仲裁发送心跳通知。头节点在此方案中被视为 HA 服务。健康监视器检查每个高可用性服务是否处于健康状态，并是否准备好参与领导竞选。如果是这样，这个头节点参与选举。如果不满足条件，系统会退出选举，等到再次准备就绪时才会重新参与。

如果备用头节点曾经达到领导地位并变为活动状态（例如在上一个活动节点发生故障的情况下），则其主故障转移控制器在其上启动所有 HDInsight HA 服务。主故障转移控制器在其他头节点上停止这些服务。

对于 HDInsight HA 服务故障（例如服务关闭或运行不正常），主故障转移控制器应根据头节点状态自动重启或停止服务。用户不应在两个头节点上手动启动 HDInsight HA 服务。相反，允许进行自动或手动故障转移机制，以帮助服务恢复。

无意中手动干预

HDInsight HA 服务只应在活动头节点上运行，并在必要时自动重启。由于单个 HA 服务没有自己的运行状况监视器，因此无法在单个服务级别触发故障转移。故障转移是在节点级别上确保的，而不是在服务级别上。

一些已知问题

在备用头节点上手动启动 HA 服务时，该服务在发生下一次故障转移之前不会停止。在两个头节点上运行 HA 服务时，一些潜在问题包括：Ambari UI 无法访问，Ambari 会引发错误、YARN、Spark 和 Oozie 作业可能会停滞。
当活动头节点上的 HA 服务停止时，在发生下一次故障转移或主故障转移控制器/master-ha-service 重启之前，它不会重启。当一个或多个 HA 服务在活动头节点上停止时，特别是当 Ambari 服务器停止时，会导致无法访问 Ambari UI，这时其他潜在问题还包括 YARN、Spark 和 Oozie 作业失败。

Apache 高可用性服务

Apache 为 HDFS NameNode、YARN ResourceManager 和 HBase Master 提供高可用性，HDInsight 群集中也提供。与 HDInsight HA 服务不同，ESP 群集支持它们。 Apache HA 服务与第二个 ZooKeeper 仲裁（上一部分所述）通信，以选择活动/备用状态并执行自动故障转移。以下部分详细介绍了这些服务的工作原理。

Hadoop 分布式文件系统（HDFS）中的NameNode

基于 Apache Hadoop 2.0 或更高版本的 HDInsight 群集提供 NameNode 高可用性。头节点上运行两个 NameNode，这些节点配置为自动故障转移。 NameNodes 使用 ZKFailoverController 与 Zookeeper 通信，以选择活动/备用状态。 ZKFailoverController 在两个头节点上运行，并且的工作方式与主故障转移控制器相同。

第二个 Zookeeper 仲裁是独立于第一个仲裁存在的，因此活跃的 NameNode 可能不会运行在活跃的头节点上。当活动 NameNode 处于死状态或运行不正常时，备用 NameNode 将赢得选举并变为活动状态。

YARN 资源管理器

基于 Apache Hadoop 2.4 或更高版本的 HDInsight 群集支持 YARN ResourceManager 高可用性。有两个 ResourceManagers（rm1 和 rm2）分别在头节点 0 和头节点 1 上运行。与 NameNode 一样，YARN ResourceManager 也配置为自动故障转移。当当前活动 ResourceManager 出现故障或无响应时，会自动选择另一个 ResourceManager 处于活动状态。

YARN ResourceManager 使用其嵌入式 ActiveStandbyElector 作为故障检测器和领导者选举器。与 HDFS NameNode 不同，YARN ResourceManager 不需要单独的 ZKFC 守护程序。活动的“ResourceManager”将其状态写入 Apache Zookeeper。

YARN ResourceManager 的高可用性独立于 NameNode 和其他 HDInsight HA 服务。活动的 ResourceManager 可能不会在活动的头节点上运行，也可能不会在运行活动的 NameNode 的头节点上运行。有关 YARN ResourceManager 高可用性的详细信息，请参阅 ResourceManager 高可用性。

HBase Master

HDInsight HBase 群集支持 HBase Master 高可用性。与其他在头节点上运行的 HA 服务不同，HBase Masters 在三个 Zookeeper 节点上运行，其中一个是活动主节点，另一个是备用节点。与NameNode一样，HBase主服务器与Apache Zookeeper协调进行领导选举，并在当前活动主服务器出现问题时执行自动故障转移。始终只有一个活动的 HBase Master。

后续步骤

Azure HDInsight虚拟网络体系结构

Last updated on 2026-04-13