Azure HDInsight 虚拟网络体系结构

本文介绍在将 HDInsight 群集部署到自定义的 Azure 虚拟网络中时提供的资源。 此信息可帮助你将本地资源连接到 Azure 中的 HDInsight 群集。 有关 Azure 虚拟网络的详细信息,请参阅什么是 Azure 虚拟网络?

Azure HDInsight 群集中的资源类型

Azure HDInsight 群集包含不同类型的虚拟机(或节点)。 每个节点类型对于系统的正常运行发挥着相应的作用。 下表汇总了这些节点类型及其在群集中的作用。

类型 描述
ZooKeeper 节点 ZooKeeper 协调执行数据处理的节点之间的任务。 它还执行头节点的主控选择,并跟踪哪个头节点正在运行特定的主服务。 ZooKeeper 节点数目固定为 3 个。
工作器节点 表示支持数据处理功能的节点。 可以在群集中添加或删除工作器节点,以缩放计算能力和控制成本。
区域节点 对于 HBase 群集类型,区域节点(也称为数据节点)将运行区域服务器。 区域服务器为 HBase 管理的一部分数据提供服务,并对其进行管理。 可以在群集中添加或删除区域节点,以缩放计算能力和控制成本。

资源命名约定

在对群集中的节点进行寻址时,使用完全限定的域名 (FQDN)。 可以使用 Ambari API 获取群集中各种节点类型的 FQDN。

这些 FQDN 的格式为 <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.chinacloudapp.cn

对于头节点,<node-type-prefix>hn,对于工作器节点为 wn,对于 Zookeeper 节点为 zn

如果只需要主机名,则仅使用 FQDN 的第一部分:<node-type-prefix><instance-number>-<abbreviated-clustername>

基本虚拟网络资源

下图显示了 HDInsight 节点和网络资源在 Azure 中的位置。

在 Azure 自定义 VNET 中创建的 HDInsight 实体示意图。

Azure 虚拟网络中的默认资源包括上表中提到的群集节点类型。 同时包括支持虚拟网络和外部网络之间的通信的网络设备。

下表汇总了将 HDInsight 部署到自定义 Azure 虚拟网络时创建的 9 个群集节点。

资源类型 提供的数量 详细信息
头节点 two
Zookeeper 节点 three
工作器节点 two 此数字根据群集的配置和规模而异。 Apache Kafka 至少需要 3 个工作器节点。
网关节点 two 网关节点是在 Azure 中创建的、但不会在订阅中显示的 Azure 虚拟机。 如果需要重新启动这些节点,请联系支持人员。

在与 HDInsight 配合使用的虚拟网络中,会自动创建以下网络资源:

网络资源 提供的数量 详细信息
负载均衡器 three
网络接口 9 个 此值基于普通群集,在此类群集中,每个节点具有自身的网络接口。 9 个接口分别用于上表中所述的 2 个头节点、3 个 ZooKeeper 节点、2 个工作器节点和 2 个网关节点。
公共 IP 地址 two

用于连接 HDInsight 的终结点

可通过三种方式访问 HDInsight 群集:

  • 虚拟网络 (CLUSTERNAME.azurehdinsight.cn) 外部的 HTTPS 终结点。
  • 直接连接到位于 CLUSTERNAME-ssh.azurehdinsight.cn 中的头节点的 SSH 终结点。
  • 虚拟网络 (CLUSTERNAME-int.azurehdinsight.cn) 内部的 HTTPS 终结点。 请注意此 URL 中的“-int”。 此终结点解析为该虚拟网络中的专用 IP,无法从公共 Internet 访问。

在这 3 个终结点中,每个终结点分配有一个负载均衡器。

此外,将为 2 个终结点提供公共 IP 地址,以便从虚拟网络外部进行连接。

  1. 将为负载均衡器分配 1 个公共 IP,以便从 Internet CLUSTERNAME.azurehdinsight.cn 连接到群集时使用完全限定的域名 (FQDN)。
  2. 第二个公共 IP 地址用于仅限 SSH 的域名 CLUSTERNAME-ssh.azurehdinsight.cn

后续步骤