在 Azure HDInsight 中使用安全传输存储帐户创建 Hadoop 群集

需要安全传输功能强制提交到帐户的所有请求都通过安全连接来进行,从而增强 Azure 存储帐户的安全性。 仅 HDInsight 群集 3.6 或更高版本支持此功能和 wasbs 方案。

先决条件

在开始阅读本教程前,必须具备以下条件:

Warning

HDInsight 群集是基于分钟按比例收费,而不管用户是否正在使用它们。 请务必在使用完之后删除群集。 有关详细信息,请参阅如何删除 HDInsight 群集

本部分介绍如何使用 Azure Resource Manager 模板在 HDInsight 中创建 Hadoop 群集。 模板位于 Gibhub 中。 学习本教程不需要有 Resource Manager 模板方面的经验。 如需其他群集创建方法或要了解本教程中使用的属性,请参阅 Create HDInsight clusters(创建 HDInsight 群集)。

  1. 单击以下映像以登录到 Azure,并在 Azure 门户中打开 Resource Manager 模板。

    Deploy to Azure

  2. 按说明遵循以下规范创建群集:

    • 指定 HDInsight 版本 3.6。 默认版本为 3.5。 3.6 或更高版本是必需的。
    • 指定启用安全传输的存储帐户。
    • 对存储帐户使用短名称。
    • 必须事先创建存储帐户和 blob 容器。

      有关说明,请参阅创建群集

如果使用脚本操作来提供自己的配置文件,则必须在以下设置中使用 wasbs:

  • fs.defaultFS (core-site)
  • spark.eventLog.dir
  • spark.history.fs.logDirectory

添加其他存储帐户

可以通过多个选项添加其他启用安全传输的存储帐户:

  • 修改上一部分的 Azure 资源管理器模板。
  • 使用 Azure 门户创建一个群集,并指定关联的存储帐户。
  • 使用脚本操作,将其他启用安全传输的存储帐户添加到现有的 HDInsight 群集。 有关详细信息,请参阅将其他存储帐户添加到 HDInsight

后续步骤

本教程介绍了如何创建 HDInsight 群集,以及如何才能安全地传输到存储帐户。

有关如何使用 HDInsight 分析数据的详细信息,请参阅以下文章:

若要详细了解如何通过 HDInsight 来存储数据,或者如何将数据导入 HDInsight,请参阅以下文章:

若要详细了解如何创建或管理 HDInsight 群集,请参阅以下文章:

  • 若要了解如何管理基于 Linux 的 HDInsight 群集,请参阅 Manage HDInsight clusters using Ambari(使用 Ambari 管理 HDInsight 群集)。
  • 若要详细了解在创建 HDInsight 群集时可以选择哪些选项,请参阅使用自定义选项在 Linux 上创建 HDInsight
  • 如果熟悉 Linux 和 Hadoop,但想要了解有关 HDInsight 上 Hadoop 的具体信息,请参阅使用 Linux 上的 HDInsight。 此文提供了如下所述信息:

    • 群集上托管的服务(例如 Ambari 和 WebHCat)的 URL
    • Hadoop 文件和示例在本地文件系统上的位置
    • 使用 Azure 存储 (WASB) 而不是 HDFS 作为默认数据存储