使用 Azure 门户在 HDInsight 中创建基于 Linux 的群集

Azure 门户是一种基于 Web 的管理工具,用于管理 Azure 云中托管的服务和资源。 本文介绍如何使用门户创建基于 Linux 的 Azure HDInsight 群集。 创建 HDInsight 群集一文提供了其他详细信息。

警告

HDInsight 群集是基于分钟按比例计费,而不管用户是否使用它们。 请务必在使用完群集之后将其删除。 请参阅如何删除 HDInsight 群集

Azure 门户会公开大部分的群集属性。 使用 Azure 资源管理器模板可以隐藏许多详细信息。 有关详细信息,请参阅使用资源管理器模板在 HDInsight 中创建 Apache Hadoop 群集

如果没有 Azure 订阅,请在开始前创建一个试用版订阅

创建群集

注意

需要安全传输的功能强制通过安全连接来实施针对帐户的所有请求。 仅 HDInsight 群集 3.6 或更高版本支持此功能。 有关详细信息,请参阅在 Azure HDInsight 中使用安全传输存储帐户创建 Apache Hadoop 群集

  1. 登录 Azure 门户

  2. 在顶部菜单中,选择“+ 创建资源” 。

    在 Azure 门户中创建新群集。

  3. 选择“分析” > “Azure HDInsight”,转到“创建 HDInsight 群集” 页。

基础知识

屏幕截图显示 HDInsight 4.0 创建群集基础知识。

在“基本信息”选项卡中提供以下信息:

属性 说明
订阅 从下拉列表中选择用于此群集的 Azure 订阅。
资源组 从下拉列表中选择现有资源组,或选择“新建” 。
群集名称 输入任何全局唯一的名称。
区域 从下拉列表中,选择在其中创建群集的区域。
可用性区域 (可选)指定要用于部署群集的可用性区域。
群集类型 单击“选择群集类型”,打开一个列表。 从列表中选择所需的群集类型。 HDInsight 群集有不同的类型。 这些类型与该群集进行优化的工作负荷或技术相对应。 没有任何方法支持创建组合多种类型的群集,
版本 从下拉列表中,选择一个版本。 如果不知道要选择哪个版本,请使用默认版本。 有关详细信息,请参阅 HDInsight 群集版本
群集登录用户名 提供用户名,默认为 admin
群集登录密码 提供密码。
确认群集登录密码 重新输入密码
安全外壳 (SSH) 用户名 提供用户名,默认为 sshuser
对 SSH 使用群集登录密码 如果希望 SSH 密码与此前指定的管理员密码相同,则选中“对 SSH 使用群集登录密码”复选框。 否则,请提供“密码”或“公钥”来验证 SSH 用户。 建议的方法是公钥。 选择底部的“选择”,保存凭据配置。 有关详细信息,请参阅使用 SSH 连接到 HDInsight (Apache Hadoop)

选择“下一步: 存储 >>”,转到下一选项卡。

存储

警告

从 2020 年 6 月 15 日开始,客户将无法使用 HDInsight 创建新的服务主体。 请参阅使用 Microsoft Entra ID 创建服务主体和证书

HDInsight 创建群集存储。

主存储

从”主存储类型”的下拉列表中,选择默认存储类型。 要完成的后续字段将因选择而异。 对于 Azure 存储

  1. 至于“选择方法”,请选择“从列表中选择”或“使用访问密钥”。

    • 接下来,对于“从列表中选择”,请从下拉列表中选择“主存储帐户”,或者选择“新建”。
    • 对于“使用访问密钥”,请输入存储帐户名称。 然后,请提供访问密钥
  2. 对于“容器”,请接受默认值,或者输入一个新值。

其他 Azure 存储

可选:选择“添加 Azure 存储”,获取其他群集存储。 不支持在 HDInsight 群集之外的其他区域使用别的存储帐户。

元存储设置

可选:指定现有的 SQL 数据库,将 Apache Hive、Apache Oozie 和/或 Apache Ambari 元数据保存在群集之外。 用于元存储的 Azure SQL 数据库必须允许连接到其他 Azure 服务,包括 Azure HDInsight。 创建元存储时,请勿使用短划线或连字符来命名数据库。 这些字符可能导致群集创建过程失败。

重要

对于支持元存储的群集形状,默认元存储提供具有基本层 5 DTU 限制(不可升级)的 Azure SQL 数据库! 适用于基本测试目的。 对于大型或生产工作负载,我们建议迁移到外部元存储。

选择“下一步: 安全性 + 网络 >>”,转到下一选项卡。

安全性 + 网络

HDInsight 创建群集安全网络。

在“安全性 + 网络”选项卡中提供以下信息:

属性 说明
企业安全数据包 可选:选中此复选框可使用“企业安全性套餐”。 有关详细信息,请参阅使用 Microsoft Entra 域服务配置具有企业安全性套餐的 HDInsight 群集
TLS 可选:从下拉列表中选择 TLS 版本。 有关详细信息,请参阅传输层安全性
虚拟网络 可选:从下拉列表中选择现有的虚拟网络和子网。 有关信息,请参阅为 Azure HDInsight 群集规划虚拟网络部署。 本文包含虚拟网络的特定配置要求。
磁盘加密设置 可选:选中此复选框即可使用加密。 有关详细信息,请参阅客户管理的密钥磁盘加密
Kafka REST 代理 此设置仅适用于群集类型 Kafka。 有关详细信息,请参阅使用 REST 代理
标识 可选:从下拉列表中选择一个用户分配的现有服务标识。 有关详细信息,请参阅 Azure HDInsight 中的托管标识

选择“下一步: 配置 + 定价 >>”,转到下一选项卡。

配置 + 定价

HDInsight 创建群集配置。

在“配置 + 定价”选项卡中提供以下信息:

属性 说明
+ 添加应用程序 可选:选择所需的任何应用程序。 Microsoft、独立软件供应商 (ISV) 或你自己都可以开发这些应用程序。 有关详细信息,请参阅在群集创建期间安装应用程序
节点大小 可选:选择不同大小的节点。
节点数 可选:输入指定节点类型的节点数。 如果计划使用 32 个以上的辅助角色节点,则请选择至少具有 8 个核心和 14 GB RAM 的头节点大小。 可以在创建群集时计划节点,也可以在创建群集之后通过缩放群集来计划节点。
启用自动缩放 可选:选中相应的复选框以启用该功能。 有关详细信息,请参阅自动缩放 Azure HDInsight 群集
+ 添加脚本操作 可选:如果要在创建群集时使用自定义脚本来自定义群集,请使用此选项。 有关脚本操作的详细信息,请参阅使用脚本操作自定义基于 Linux 的 HDInsight 群集

选择“查看 + 创建 >>”,验证群集配置并转到最后一个选项卡。

Tags

在“标记”页中提供以下信息:

属性 说明
名称 可选。 输入所选名称以轻松标识所有资源。
将其留空。
资源 已选择“选择所有资源”。

查看 + 创建

屏幕截图显示 HDInsight 4.0 创建群集摘要。

查看设置。 选择“创建”可创建群集。

创建群集需要一些时间,通常约 20 分钟左右。 监视“通知”以检查预配进程。

创建帖子

创建进程完成后,选择“部署成功”通知中的“转到资源” 。 群集窗口提供以下信息。

屏幕截图显示 Azure HDInsight 门户群集概述。

窗口中的某些图标解释如下:

属性 说明
概述 提供有关群集的所有基本信息。 例如,名称、其所属的资源组、位置、操作系统、群集仪表板 URL。
群集仪表板 将你定向到与群集关联的 Ambari 门户。
SSH + 群集登录 提供使用 SSH 访问群集时所需的信息。
Delete 删除 HDInsight 群集。

删除群集

请参阅使用浏览器、PowerShell 或 Azure CLI 删除 HDInsight 群集

故障排除

如果在创建 HDInsight 群集时遇到问题,请参阅访问控制要求

后续步骤

你已成功创建 HDInsight 群集。 现在可以了解如何使用群集了。