使用 Azure 门户在 HDInsight 中创建基于 Linux 的群集

Azure 门户是一种基于 Web 的管理工具,用于管理 Azure 云中托管的服务和资源。 本文介绍如何使用门户创建基于 Linux 的 HDInsight 群集。

先决条件

Warning

HDInsight 群集是基于分钟按比例收费,而不管用户是否正在使用它们。 请务必在使用完之后删除群集。 有关详细信息,请参阅如何删除 HDInsight 群集

  • 一个 Azure 订阅。 请参阅获取 Azure 试用版
  • 一个现代 Web 浏览器。 Azure 门户使用 HTML5 和 Javascript,可能无法在旧版 Web 浏览器中正确运行。

创建群集

Azure 门户会公开大部分的群集属性。 使用 Azure 资源管理器模板可以隐藏许多详细信息。 有关详细信息,请参阅在 HDInsight 中使用 Azure Resource Manager 模板创建基于 Linux 的 Hadoop 群集

Note

需要安全传输功能强制通过安全连接来实施针对帐户的所有请求。 仅 HDInsight 群集 3.6 或更高版本支持此功能。 有关详细信息,请参阅在 Azure HDInsight 中使用安全传输存储帐户创建 Hadoop 群集

  1. 登录到 Azure 门户
  2. 依次单击“+”、“智能 + 分析”、“HDInsight”。

    在 Azure 门户中创建新群集

  3. 在“HDInsight”边栏选项卡中,单击“自定义(大小、设置、应用)”,单击“基本信息”,并输入以下信息。

    在 Azure 门户中创建新群集

    • 输入“群集名称” :此名称必须全局唯一。

    • 从“订阅”下拉列表中选择要用于此群集的 Azure 订阅 。

    • 单击“群集类型”,然后选择要创建的群集类型(Hadoop、Spark 等)。 对于“操作系统”,请单击“Linux”并选择版本。 如果不知道要选择哪个版本,请使用默认版本。 有关详细信息,请参阅 HDInsight 群集版本

      Important

      HDInsight 群集有各种类型,分别与针对其优化群集的工作负荷或技术相对应。 不支持在一个群集上创建合并了多个类型(如 Storm 和 HBase)的群集。

    • 对于“群集登录用户名”和“群集登录密码”,请分别为管理员用户提供用户名和密码。

    • 输入“SSH 用户名”,如果要让 SSH 密码与在前面指定的管理员密码相同,则选中“使用与群集登录相同的密码”复选框。 如果不是,则提供“密码”或“公钥”,这会用于对 SSH 用户验证身份。 建议使用公钥。 单击底部的“选择” ,保存凭据配置。

      有关信息,请参阅将 SSH 与 HDInsight 配合使用

    • 对于“资源组”,指定是要创建新的资源组还是使用现有资源组。

    • 指定要在其中创建群集的数据中心 位置

    • 单击“下一步”。

  4. 对于“存储”,请指定是否要将 Azure 存储 (WASB) 作为默认存储。 有关详细信息,请查看下表。

    在 Azure 门户中创建新群集

    存储 说明
    将 Azure 存储 Blob 作为默认存储
    • 对于“主存储类型”,选择“Azure 存储”。 在此之后,如果要指定属于 Azure 订阅的存储帐户,则对于“选择方法”,可以选择“我的订阅”,并选择存储帐户。 否则,请单击“访问密钥”,并提供想要从 Azure 订阅外部选择的存储帐户的信息。
    • 对于“默认容器”,可以选择使用门户建议的默认容器名称或自己指定。
    • 如果使用 WASB 作为默认存储,则可以(可选)单击“其他存储帐户”以指定要与群集关联的其他存储帐户。 在“Azure 存储密钥”边栏选项卡中,单击“添加存储密钥”,并可以从 Azure 订阅或其他订阅提供存储帐户(通过提供存储帐户访问密钥)。
    外部元存储 (可选)可以指定 SQL 数据库用于保存与群集关联的 Hive 和 Oozie 元数据。 对于“为 Hive 选择 SQL 数据库”,选择 SQL 数据库,并提供该数据库的用户名/密码。 为 Oozie 元数据重复以上这些步骤。

    将 Azure SQL 数据库用于远存储时的一些注意事项。
    • 用于元存储的 Azure SQL 数据库必须允许连接到其他 Azure 服务,包括 Azure HDInsight。 在 Azure SQL 数据库仪表板的右侧单击服务器名称。 这是运行 SQL 数据库实例的服务器。 进入服务器视图后,请单击“配置”,针对“Azure 服务”单击“是”,并单击“保存”。
    • 创建元存储时,请勿使用包含短划线或连字符的数据库名称,因为这可能会导致群集创建过程失败。

    单击“下一步”。

    Warning

    不支持在 HDInsight 群集之外的其他位置使用别的存储帐户。

  5. (可选)单击“应用程序”以安装适用于 HDInsight 群集的应用程序。 这些应用程序可能是 Microsoft、独立软件供应商 (ISV) 或自己开发的。 有关详细信息,请参阅安装 HDInsight 应用程序

  6. 单击“群集大小”以显示针对此群集使用的节点的相关信息。 设置群集所需的工作节点数。 此时还会显示该群集的预估运行成本。

    节点定价层

    Important

    如果计划使用 32 个以上的工作节点(在创建群集时或是在创建之后通过扩展群集进行),则必须选择至少具有 8 个核心和 14GB ram 的头节点大小。

    有关节点大小和相关费用的详细信息,请参阅 HDInsight 定价

    单击“下一步”以保存节点定价配置。

  7. 单击“高级设置”以配置其他可选设置,如使用“脚本操作”自定义群集以安装自定义组件或加入“虚拟网络”。 有关详细信息,请查看下表。

    节点定价层

    选项 说明
    脚本操作 如果想要在创建群集时使用自定义脚本自定义群集,请选择此选项。 有关脚本操作的详细信息,请参阅使用脚本操作自定义 HDInsight 群集
    虚拟网络 如果想要将群集放入虚拟网络,请选择 Azure 虚拟网络和子网。 有关将 HDInsight 与虚拟网络配合使用的信息(包括虚拟网络的特定配置要求),请参阅使用 Azure 虚拟网络扩展 HDInsight 功能

    单击“下一步”。

  8. 在“摘要”中,检查前面输入的信息,并单击“创建”。

    节点定价层

    Note

    创建群集需要一些时间,通常约 15 分钟左右。 使用启动板上的磁贴或页面左侧的“通知”条目检查预配进程。

  9. 创建过程完成后,在启动板中单击群集磁贴。 群集窗口提供以下信息。

    群集接口

    参考以下内容了解顶部的图标。

    • 边栏选项卡提供有关该群集的基本信息,如名称、所属的资源组、位置、操作系统、群集仪表板 URL 等。

    • 仪表板 可你将定向到与群集关联的 Ambari 门户。

    • 安全外壳:使用 SSH 访问群集时所需的信息。
    • 缩放群集 可增加与群集关联的辅助角色节点数。
    • 删除:删除 HDInsight 群集。

自定义群集

删除群集

Warning

HDInsight 群集是基于分钟按比例收费,而不管用户是否正在使用它们。 请务必在使用完之后删除群集。 有关详细信息,请参阅如何删除 HDInsight 群集

故障排除

如果在创建 HDInsight 群集时遇到问题,请参阅访问控制要求

后续步骤

成功创建 HDInsight 群集后,请参考以下主题来了解如何使用群集:

Hadoop 群集

HBase 群集

Storm 群集

Spark 群集