开始使用 Apache Hadoop 沙盒,它是虚拟机上的模拟器

了解如何在虚拟机上安装 Hortonworks 提供的 Apache Hadoop 沙盒,以了解 Hadoop 生态系统。 该沙盒提供一个本地开发环境,让用户了解 Hadoop、Hadoop 分布式文件系统 (HDFS) 和作业提交内容。 熟悉 Hadoop 之后,便可以开始在 Azure 中使用 Hadoop 创建 HDInsight 群集。 有关如何入门的详细信息,请参阅在 HDInsight 中开始使用 Hadoop

必备条件

下载并安装虚拟机

  1. 浏览到 Cloudera 下载

  2. 单击“选择安装类型”下的 VIRTUALBOX,在 VM 上下载最新的 Hortonworks 沙盒。 登录或填写产品兴趣表。

  3. 单击按钮“HDP 沙盒(最新)” 开始下载。

有关设置沙盒的说明,请参阅沙盒部署和安装指南

若要下载旧版本的 HDP 沙盒,请参阅“旧版本” 下的链接。

启动虚拟机

  1. 打开 Oracle VM VirtualBox。

  2. 在“文件” 菜单上,单击“导入设备” ,并指定 Hortonworks 沙盒映像。

  3. 选择 Hortonworks 沙盒,依次单击“启动” 、“正常启动” 。 虚拟机完成启动过程后,显示登录说明。

    virtualbox manager normal start

  4. 打开 Web 浏览器并导航到显示的 URL(通常是 http://127.0.0.1:8888)。

设置沙盒密码

  1. 在“Hortonworks 沙盒”页的“开始” 步骤中,选择“查看高级选项” 。 使用此页上的信息通过 SSH 登录到沙盒。 使用提供的名称和密码。

    注意

    如果未安装 SSH 客户端,可以使用虚拟机在 http://localhost:4200/ 上提供的基于 Web 的 SSH。

    首次使用 SSH 建立连接时,系统会提示更改根帐户的密码。 输入用 SSH 登录时使用的新密码。

  2. 登录后,请输入以下命令:

    ambari-admin-password-reset
    

    出现提示时,请提供 Ambari 管理员帐户的密码。 访问 Ambari Web UI 时使用此密码。

使用 Hive 命令

  1. 与沙盒建立 SSH 连接后,使用以下命令启动 Hive shell:

    hive
    
  2. 启动 shell 后,使用以下命令查看随沙盒一起提供的表:

    show tables;
    
  3. 使用以下命令检索 sample_07 表中的 10 行数据:

    select * from sample_07 limit 10;
    

后续步骤