安装已发布应用程序 - StreamSets Data Collector

本文介绍如何在 Azure HDInsight 上安装和运行 StreamSets Data Collector for HDInsight 发布的 Hadoop 应用程序。 有关 HDInsight 应用程序平台的概述以及可用独立软件供应商 (ISV) 发布的应用程序的列表,请参阅安装第三方 Hadoop 应用程序。 有关如何安装自己的应用程序的说明,请参阅安装自定义 HDInsight 应用程序

关于 StreamSets Data Collector

StreamSets Data Collector 部署在 Azure HDInsight 应用程序之上。 StreamSets Data Collector 提供一个全功能的集成开发环境 (IDE),可在其中设计、测试、部署和管理全面互通引入管道。 这些管道可以汇合流和批处理数据,并提供各种流中转换,所有这一切都无需编写自定义代码。

StreamSets Data Collector 可以使用许多大数据组件(如 HDFS、Kafka、Solr、Hive、HBASE 和 Kudu)生成数据流。 StreamSets Data Collector 在边缘服务器上或 Hadoop 群集中运行后,你便可以实时监视数据异常和数据流操作。 此监视功能包括基于阈值的警报、异常检测和错误记录的自动修正。

StreamSets Data Collector 旨在在管道中从逻辑上隔离每个阶段,因此你可以通过增加新的处理器和连接器,而无需编码只需最少的停机时间即可满足新的业务要求。

先决条件

若要在新的 HDInsight 群集或现有群集上安装此应用,必须采用以下配置:

  • 群集层:标准或高级
  • 群集版本:3.5 及更高版本

安装 StreamSets Data Collector 发布的应用程序

有关安装此应用程序和其他可用 ISV 应用程序的分步说明,请阅读安装第三方 Hadoop 应用程序

启动 StreamSets Data Collector

  1. 安装完成后,可以通过转到 Azure 门户中的“设置”窗格,然后选择“常规”类别下的“应用程序”从群集启动 StreamSets。 “已安装的应用”窗格将列出已安装的应用程序。

    已安装的 StreamSets 应用

  2. 选择 StreamSets Data Collector 时,会看到网页链接和 SSH 终结点路径。 选择网页链接。

  3. 在“登录”对话框中,使用以下凭据登录:adminadmin

  4. 在“入门”页中,单击“新建管道”。

    新建管道

  5. 在“新建管道”窗口中,输入管道的名称 ("Hello World"),(可选)输入说明,然后选择“保存”。

  6. 将显示 Data Collector 控制台。 “属性”面板显示管道属性。

    Data Collector 控制台

  7. 现在可以按照 StreamSets 教程进行操作了。 该教程提供了有关创建第一个管道的分步说明。

后续步骤