Azure HDInsight 虚拟网络体系结构
本文介绍了在将 HDInsight 群集部署到自定义 Azure 虚拟网络时存在的资源。 此信息可帮助你将本地资源连接到 Azure 中的 HDInsight 群集。 有关 Azure 虚拟网络的详细信息,请参阅什么是 Azure 虚拟网络?。
Azure HDInsight 群集中的资源类型
Azure HDInsight 群集包含不同类型的虚拟机(或节点)。 每个节点类型对于系统的正常运行发挥着相应的作用。 下表汇总了这些节点类型及其在群集中的作用。
类型 | 描述 |
---|---|
ZooKeeper 节点 | ZooKeeper 协调执行数据处理的节点之间的任务。 它还执行头节点的主控选择,并跟踪哪个头节点正在运行特定的主服务。 ZooKeeper 节点数目固定为 3 个。 |
工作器节点 | 表示支持数据处理功能的节点。 可以在群集中添加或删除工作器节点,以缩放计算能力和控制成本。 |
区域节点 | 对于 HBase 群集类型,区域节点(也称为数据节点)将运行区域服务器。 区域服务器为 HBase 管理的一部分数据提供服务,并对其进行管理。 可以在群集中添加或删除区域节点,以缩放计算能力和控制成本。 |
资源命名约定
在对群集中的节点进行寻址时,使用完全限定的域名 (FQDN)。 可以使用 Ambari API 获取群集中各种节点类型的 FQDN。
这些 FQDN 采用 <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.chinacloudapp.cn
的形式。
对于头节点,<node-type-prefix>
为 hn
,对于辅助角色节点为 wn
,对于 Zookeeper 节点为 zn
。
如果只需要主机名,则仅使用 FQDN 的第一部分:<node-type-prefix><instance-number>-<abbreviated-clustername>
基本虚拟网络资源
下图显示了 HDInsight 节点和网络资源在 Azure 中的位置。
Azure 虚拟网络中的默认资源包括上表中提到的群集节点类型。 同时包括支持虚拟网络和外部网络之间的通信的网络设备。
下表汇总了将 HDInsight 部署到自定义 Azure 虚拟网络时创建的 9 个群集节点。
资源类型 | 提供的数量 | 详细信息 |
---|---|---|
头节点 | two | |
Zookeeper 节点 | three | |
工作器节点 | two | 此数字根据群集的配置和规模而异。 Apache Kafka 至少需要 3 个工作器节点。 |
网关节点 | two | 网关节点是在 Azure 中创建的、但不会在订阅中显示的 Azure 虚拟机。 如果需要重新启动这些节点,请联系支持人员。 |
在与 HDInsight 配合使用的虚拟网络中,会自动创建以下网络资源:
网络资源 | 提供的数量 | 详细信息 |
---|---|---|
负载均衡器 | 两种 | 负载均衡器为节点提供入站网络访问。 这两个负载均衡器适用于:两个头节点和两个网关节点。 负载均衡器是标准 SKU。 |
网络接口 | 9 个 | 此值基于普通群集,在此类群集中,每个节点具有自身的网络接口。 9 个接口分别用于上表中所述的 2 个头节点、3 个 ZooKeeper 节点、2 个工作器节点和 2 个网关节点。 |
公共 IP 地址 | two | 两个公共 IP 地址绑定到负载均衡器。 |
有多种出站连接方法可用于出站连接的源网络地址转换 (SNAT) - Azure 负载均衡器中所述的自定义虚拟网络。
用于连接 HDInsight 的终结点
可通过三种方式访问 HDInsight 群集:
- 虚拟网络 (
CLUSTERNAME.azurehdinsight.cn
) 外部的 HTTPS 终结点。 - 直接连接到位于
CLUSTERNAME-ssh.azurehdinsight.cn
中的头节点的 SSH 终结点。 - 虚拟网络 (
CLUSTERNAME-int.azurehdinsight.cn
) 内部的 HTTPS 终结点。 请注意此 URL 中的“-int
”。 此终结点解析为该虚拟网络中的专用 IP,无法从公共 Internet 访问。
在这 3 个终结点中,每个终结点分配有一个负载均衡器。
此外,将为 2 个终结点提供公共 IP 地址,以便从虚拟网络外部进行连接。
- 将为负载均衡器分配 1 个公共 IP,以便从 Internet
CLUSTERNAME.azurehdinsight.cn
连接到群集时使用完全限定的域名 (FQDN)。 - 第二个公共 IP 地址用于仅限 SSH 的域名
CLUSTERNAME-ssh.azurehdinsight.cn
。