在 Azure HDInsight 上安装第三方 Apache Hadoop 应用程序

了解如何在 Azure HDInsight 上安装第三方 Apache Hadoop 应用程序。 有关如何安装自己的应用程序的说明,请参阅安装自定义 HDInsight 应用程序

HDInsight 应用程序是用户可以在 HDInsight 群集上安装的应用程序。 这些应用程序可能是 Microsoft、独立软件供应商 (ISV) 或自己开发的。

以下列表显示已发布的应用程序:

应用程序 群集类型 说明
AtScale 智能平台 Hadoop AtScale 可将 HDInsight 群集转换为 OLAP 横向扩展服务器,使你能够使用熟悉的、自有的和喜爱的商业智能 (BI) 工具以交互的方式查看数十亿行数据;这些工具包括 Microsoft Excel、Power BI、Tableau Software 和 QlikView 等等。
Datameer Hadoop Datameer 是一个可缩放的自助服务平台,用于准备、浏览和管理要分析的数据,将复杂的多源数据更快地转变成可供业务使用的宝贵信息,在企业级别提供更快、更智能的见解。
HDInsight 上的 Dataiku DSS Hadoop、Spark Dataiku DSS 位于企业数据科学平台上,可让数据科学家和数据分析师协同合作,更有效地设计和运行新的数据产品和服务,将原始数据转变成有影响力的预测。
WANdisco Fusion HDI 应用 Hadoop、Spark、HBase、Kafka 在分布式环境中保持数据一致性是一个很大的数据操作难题。 企业级软件平台 WANdisco Fusion 可在任一环境中实现非结构化数据的一致性,从而解决了这一问题。
适用于 HDInsight 的 H2O SparklingWater Spark H2O Sparkling Water 支持以下分布式算法:GLM、朴素贝叶斯、分布式随机森林、梯度增强机、深度神经网络、深度学习、K-平均、PCA、广义低阶模型、异常情况检测和自编码器。
用于将实时数据集成到 HDInsight 的 Striim Hadoop、HBase、Spark、Kafka Striim(读作“stream”)是一个端到端流式处理数据集成和智能平台,可用于实现不同数据流的持续引入、处理和分析。
Jumbune Enterprise - 加速大数据分析 Hadoop、Spark 大致来说,Jumbune 通过以下方式为企业提供帮助:1. 加速基于 Tez、MapReduce 和 Spark 引擎的 Hive、Java 和 Scala 工作负载性能; 2. 主动监视 Hadoop 群集;3. 在分布式文件系统上建立数据质量管理。
Kyligence Enterprise Hadoop、HBase、Spark Kyligence Enterprise 由 Apache Kylin 提供支持,可基于大数据实现商业智能 (BI)。 作为 Hadoop 上的企业 OLAP 引擎,Kyligence Enterprise 使业务分析师能够通过行业标准的数据仓库和 BI 方法在 Hadoop 上构建 BI。
适用于 HDInsight 云的 StreamSets 数据收集器 Hadoop、HBase、Spark、Kafka StreamSets 数据收集器是一种轻量级的功能强大的引擎,可实时流式处理数据。 该数据收集器可用来路由和处理数据流中的数据。 该产品附带 30 天试用版许可证。
Trifacta Wrangler Enterprise Hadoop、Spark、HBase Trifacta Wrangler Enterprise for HDInsight 支持对任何规模的数据进行企业范围的数据整理。 在 Azure 上运行 Trifacta 所产生的成本是 Trifacta 订阅成本及虚拟机的 Azure 基础结构成本之和。
Unifi Data Platform Hadoop、HBase、Spark Unifi Data Platform 是一套无缝集成的自助服务数据工具,旨在使业务用户能够解决促进收入增长、降低成本或运营复杂性的数据难题。

本文提供的说明将使用 Azure 门户。 也可以从门户导出 Azure 资源管理器模板或从供应商处获取 Resource Manage 模板的副本,并使用 Azure PowerShell 和 Azure 经典 CLI 部署模板。 请参阅使用资源管理器模板在 HDInsight 中创建 Apache Hadoop 群集

先决条件

如果想要在现有的 HDInsight 群集上安装 HDInsight 应用程序,必须有一个 HDInsight 群集。 若要创建群集,请参阅 创建群集。 也可以在创建 HDInsight 群集时安装 HDInsight 应用程序。

将应用程序安装到现有群集

下面的过程演示如何将 HDInsight 应用程序安装到现有的 HDInsight 群集。

安装 HDInsight 应用程序

  1. 登录 Azure 门户

  2. 在左侧菜单中,导航到“所有服务”>“Analytics”>“HDInsight 群集” 。

  3. 从列表中选择一个 HDInsight 群集。 如果没有群集,必须先创建一个。 请参阅 创建群集

  4. 在“设置”目录下,选择“应用程序” 。 可在主窗口中看到已安装应用程序的列表。

    HDInsight applications portal menu

  5. 在菜单中选择“+添加”。 可看到可用应用程序的列表。 如果“+添加”呈灰色,表示任何应用程序可用于此版本的 HDInsight 群集。

    HDInsight applications available applications

  6. 选择某个可用的应用程序,然后按照说明来接受法律条款。

可通过门户通知查看安装状态(选择门户顶部的铃铛图标)。 安装应用程序后,应用程序会出现在“已安装的应用”列表中。

在群集创建期间安装应用程序

可以选择在创建群集时安装 HDInsight 应用程序。 在此过程中,HDInsight 应用程序会在群集创建并处于运行状态后安装。 若要通过 Azure 门户在群集创建期间安装应用程序,请从“配置与定价”选项卡中选择“+添加应用程序” 。

Azure portal cluster configuration applications

列出已安装的 HDInsight 应用和属性

门户会显示群集的已安装 HDInsight 应用程序列表,以及每个已安装应用程序的属性。

列出 HDInsight 应用程序并显示属性

  1. 登录 Azure 门户

  2. 在左侧菜单中,导航到“所有服务”>“Analytics”>“HDInsight 群集” 。

  3. 从列表中选择一个 HDInsight 群集。

  4. 在“设置”目录下,选择“应用程序” 。 可在主窗口中看到已安装应用程序的列表。

    HDInsight applications installed apps

  5. 选择一个已安装的应用程序来查看属性。 属性列表:

    属性 说明
    应用程序名称 应用程序名称。
    状态 应用程序状态。
    网页 已部署到边缘节点的 Web 应用程序的 URL。 此凭据与针对群集配置的 HTTP 用户凭据相同。
    SSH 终结点 可以使用 SSH 连接到边缘节点。 SSH 凭据与针对群集配置的 SSH 用户凭据相同。 有关信息,请参阅将 SSH 与 HDInsight 配合使用
    说明 应用程序说明。
  6. 若要删除应用程序,请右键单击应用程序,并单击上下文菜单中的“删除”。

连接到边缘节点

可以使用 HTTP 和 SSH 连接到边缘节点。 可在 门户中找到终结点信息。 有关信息,请参阅将 SSH 与 HDInsight 配合使用

HTTP 终结点凭据是为 HDInsight 群集配置的 HTTP 用户凭据。 SSH 终结点凭据是为 HDInsight 群集配置的 SSH 凭据。

疑难解答

请参阅 故障排除安装问题

后续步骤