本文介绍将 HDInsight 群集部署到自定义Azure Virtual Network时存在的资源。 此信息可帮助你将本地资源连接到 Azure 中的 HDInsight 群集。 有关Azure虚拟网络的详细信息,请参阅 什么是 Azure Virtual Network?
Azure HDInsight 群集中的资源类型
Azure HDInsight 群集具有不同类型的虚拟机或节点。 每个节点类型对于系统的正常运行发挥着相应的作用。 下表汇总了这些节点类型及其在群集中的作用。
| 类型 | 描述 |
|---|---|
| ZooKeeper 节点 | ZooKeeper 协调执行数据处理的节点之间的任务。 它还执行头节点的主控选择,并跟踪哪个头节点正在运行特定的主服务。 ZooKeeper 节点数目固定为 3 个。 |
| 工作器节点 | 表示支持数据处理功能的节点。 可以在群集中添加或删除工作器节点,以缩放计算能力和控制成本。 |
| 区域节点 | 对于 HBase 群集类型,区域节点(也称为数据节点)将运行区域服务器。 区域服务器为 HBase 管理的一部分数据提供服务,并对其进行管理。 可以在群集中添加或删除区域节点,以缩放计算能力和控制成本。 |
资源命名约定
在对群集中的节点进行寻址时,使用完全限定的域名 (FQDN)。 可以使用 Ambari API 获取群集中各种节点类型的 FQDN。
这些 FQDN 采用 <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.chinacloudapp.cn 的形式。
对于头节点,<node-type-prefix> 为 hn,对于辅助角色节点为 wn,对于 Zookeeper 节点为 zn。
如果只需要主机名,则仅使用 FQDN 的第一部分:<node-type-prefix><instance-number>-<abbreviated-clustername>
基础虚拟网络资源
下图显示了 HDInsight 节点和网络资源在 Azure 中的放置。
Azure Virtual Network中的默认资源包括上表中提到的群集节点类型。 以及支持virtual network与外部网络之间的通信的网络设备。
下表汇总了将 HDInsight 部署到自定义Azure Virtual Network时创建的九个群集节点。
| 资源类型 | 存在的数量 | 详细信息 |
|---|---|---|
| 头节点 | 二 | |
| Zookeeper 节点 | 三 | |
| 工作器节点 | 二 | 此数字根据群集的配置和规模而异。 Apache Kafka 至少需要 3 个工作器节点。 |
| 网关节点 | 二 | 网关节点是Azure virtual machines,这些节点是在Azure上创建的,但在订阅中不可见。 如果需要重新启动这些节点,请联系支持人员。 |
在与 HDInsight 一起使用的虚拟网络中存在的以下网络资源会自动创建:
| 网络资源 | 存在的数量 | 详细信息 |
|---|---|---|
| 负载均衡器 | 二 | 为节点提供入站网络访问的负载均衡器。 这两个负载均衡器适用于:两个头节点和两个网关节点。 负载均衡器是标准 SKU。 |
| 网络接口 | 9 | 此值基于普通群集,在此类群集中,每个节点具有自身的网络接口。 9 个接口分别用于上表中所述的 2 个头节点、3 个 ZooKeeper 节点、2 个工作器节点和 2 个网关节点。 |
| 公共 IP 地址 | 二 | 两个公共 IP 地址绑定到负载均衡器。 |
多个出站连接方法可以与Azure 负载均衡器的出站连接 - 源网络地址转换 (SNAT)中说明的自定义虚拟网络一起使用。
注释
建议的方法是将子网与 NAT 网关相关联。 该方法要求具有 NAT 网关以及在子网中创建的网络安全组,然后才能创建 HDInsight 群集。 你可以将公共 IP 或公共 IP 前缀与 NAT 网关绑定。 有关要创建的 NSG 规则,请参阅 在 Azure HDInsight 中控制网络流量
用于连接 HDInsight 的终结点
可以通过三种方式访问 HDInsight 群集:
- HTTPS 终结点位于
CLUSTERNAME.azurehdinsight.cn虚拟网络外部。 - SSH 终结点用于直接连接到
CLUSTERNAME-ssh.azurehdinsight.cn中的主节点。 - virtual network
CLUSTERNAME-int.azurehdinsight.cn中的 HTTPS 终结点。 请注意此 URL 中的“-int”。 此终结点解析为该虚拟网络中的专用 IP,并且无法从公共互联网访问。
这三个终结点分别分配了负载均衡器。
公共 IP 地址还提供给允许从虚拟网络外部进行连接的两个端点。
- 将一个公共 IP 分配给负载均衡器,其完全限定域名(FQDN)用于从互联网连接到群集。
CLUSTERNAME.azurehdinsight.cn - 第二个公共 IP 地址用于仅限 SSH 的域名
CLUSTERNAME-ssh.azurehdinsight.cn。