使用 Azure 门户在 HDInsight 中创建基于 Linux 的群集

Azure 门户是一种基于 Web 的管理工具,用于管理 Azure 云中托管的服务和资源。 本文介绍如何使用门户创建基于 Linux 的 HDInsight 群集。

先决条件

Warning

HDInsight 群集是基于分钟按比例收费,而不管用户是否正在使用它们。 请务必在使用完之后删除群集。 有关详细信息,请参阅如何删除 HDInsight 群集

  • 一个 Azure 订阅。 请参阅获取 Azure 试用版
  • 一个现代 Web 浏览器。 Azure 门户使用 HTML5 和 Javascript,可能无法在旧版 Web 浏览器中正确运行。

创建群集

Azure 门户会公开大部分的群集属性。 使用 Azure Resource Manager 模板可以隐藏许多详细信息。 有关详细信息,请参阅在 HDInsight 中使用 Azure 资源管理器模板创建基于 Linux 的 Apache Hadoop 群集

Note

需要安全传输功能强制通过安全连接来实施针对帐户的所有请求。 仅 HDInsight 群集 3.6 或更高版本支持此功能。 有关详细信息,请参阅在 Azure HDInsight 中使用安全传输存储帐户创建 Hadoop 群集

  1. 登录到 Azure 门户
  2. 依次单击“+”、“数据 + 分析”、“HDInsight”。

    在 Azure 门户中创建新群集

  3. 从“HDInsight”页选择“自定义(大小、设置、应用)”。

  4. 选择“1 基本信息”,然后输入以下信息:

    在 Azure 门户中创建新群集

    • 输入群集名称:此名称必须全局唯一。

    • 从“订阅”下拉列表中选择要用于此群集的 Azure 订阅 。

    • 选择“群集类型”,然后选择想要创建的群集类型(Hadoop、Spark 等)。 “操作系统”将为 Linux。 然后选择群集类型版本。 如果不知道要选择哪个版本,请使用默认版本。 有关详细信息,请参阅 HDInsight 群集版本

      Important

      HDInsight 群集有各种类型,分别与针对其优化群集的工作负荷或技术相对应。 不支持在一个群集上创建合并了多个类型(如 Storm 和 HBase)的群集。

    • 对于“群集登录用户名”和“群集登录密码”,请分别为管理员用户提供用户名和密码。

    • 输入“SSH 用户名”,如果要让 SSH 密码与在前面指定的管理员密码相同,则选中“使用与群集登录相同的密码”复选框。 如果不是,则提供“密码”或“公钥”,这会用于对 SSH 用户验证身份。 建议使用公钥。 单击底部的“选择” ,保存凭据配置。

      有关信息,请参阅将 SSH 与 HDInsight 配合使用

    • 对于“资源组”,指定是要创建新的资源组还是使用现有资源组。

    • 指定要在其中创建群集的数据中心 位置

    • 选择“下一步”转到下一页。

  5. 从“安全性 + 网络”中,可以使用所提供的下拉列表将群集连接到虚拟网络。 如果想要将群集放入虚拟网络,请选择 Azure 虚拟网络和子网。 有关将 HDInsight 与虚拟网络配合使用的信息(包括虚拟网络的特定配置要求),请参阅 Extend HDInsight capabilities by using an Azure Virtual Network(使用 Azure 虚拟网络扩展 HDInsight 功能)。

    选择“下一步”转到下一页。

  6. 对于“3 存储”,请指定是否要将 Azure 存储作为默认存储。 有关详细信息,请查看下表。

    在 Azure 门户中创建新群集

    存储 说明
    将 Azure 存储 Blob 作为默认存储
    • 对于“主存储类型”,选择“Azure 存储”。 在此之后,如果要指定属于用户的 Azure 订阅的存储帐户,则对于“选择方法”,可以选择“我的订阅”,并选择存储帐户。 否则,请单击“访问密钥”,并提供想要从 Azure 订阅外部选择的存储帐户的信息。
    • 对于“默认容器”,可以选择使用门户建议的默认容器名称或自己指定。
    • 如果使用 WASB 作为默认存储,则可以(可选)单击“其他存储帐户”以指定要与群集关联的其他存储帐户。 对于“Azure 存储密钥”,单击“添加存储密钥”,然后可从 Azure 订阅或其他订阅提供存储帐户(通过提供存储帐户访问密钥)。
    外部元存储 (可选)可以指定 SQL 数据库用于保存与群集关联的 Hive 和 Oozie 元数据。 对于“为 Hive 选择 SQL 数据库”,选择 SQL 数据库,并提供该数据库的用户名/密码。 为 Oozie 元数据重复以上这些步骤。

    将 Azure SQL 数据库用于远存储时的一些注意事项。
    • 用于元存储的 Azure SQL 数据库必须允许连接到其他 Azure 服务,包括 Azure HDInsight。 在 Azure SQL 数据库仪表板的右侧单击服务器名称。 这是运行 SQL 数据库实例的服务器。 进入服务器视图后,请单击“配置”,针对“Azure 服务”单击“是”,并单击“保存”。
    • 创建元存储时,请勿使用包含短划线或连字符的数据库名称,因为这可能会导致群集创建过程失败。

    Warning

    不支持在 HDInsight 群集之外的其他位置使用别的存储帐户。

    选择“下一步”转到下一页。

  7. 从“应用程序(可选)”中,选择任何所需的应用程序。 这些应用程序可能是 Microsoft、独立软件供应商 (ISV) 或自己开发的。 有关详细信息,请参阅安装 HDInsight 应用程序

    选择“下一步”转到下一页。

  8. “5 群集大小”显示用于此群集的节点的相关信息。 设置群集所需的工作节点数。 此时还会显示该群集的预估运行成本。

    节点定价层

    Important

    如果计划使用 32 个以上的工作节点(在创建群集时或是在创建之后通过扩展群集进行),则必须选择至少具有 8 个核心和 14GB ram 的头节点大小。

    有关节点大小和相关费用的详细信息,请参阅 HDInsight 定价

    选择“下一步”转到下一页。

  9. 从“6 脚本操作”中,可以自定义群集以安装自定义组件。 如果想要在创建群集时使用自定义脚本自定义群集,请选择此选项。 有关脚本操作的详细信息,请参阅使用脚本操作自定义 HDInsight 群集

    选择“下一步”转到下一页。

  10. 从“摘要”中,验证之前输入的信息,然后选择“创建”。

    节点定价层

    Note

    创建群集需要一些时间,通常约 20 分钟左右。 监视“通知”以检查预配进程。

  11. 创建进程完成后,选择“部署成功”中的“转到资源”。 群集窗口提供以下信息。

    群集接口

    参考以下内容了解顶部的图标。

    • 边栏选项卡提供有关该群集的基本信息,如名称、所属的资源组、位置、操作系统、群集仪表板 URL 等。

    • 仪表板 可你将定向到与群集关联的 Ambari 门户。

    • 安全外壳:使用 SSH 访问群集时所需的信息。
    • 缩放群集 可增加与群集关联的辅助角色节点数。
    • 删除:删除 HDInsight 群集。

自定义群集

删除群集

Warning

HDInsight 群集是基于分钟按比例收费,而不管用户是否正在使用它们。 请务必在使用完之后删除群集。 有关详细信息,请参阅如何删除 HDInsight 群集

故障排除

如果在创建 HDInsight 群集时遇到问题,请参阅访问控制要求

后续步骤

成功创建 HDInsight 群集后,请参考以下主题来了解如何使用群集:

Apache Hadoop 群集

Apache HBase 群集

Apache Storm 群集

Apache Spark 群集