开始使用 Hadoop 沙盒, 虚拟机上的模拟器

了解如何在虚拟机上安装 Hortonworks 提供的 Hadoop 沙盒,了解 Hadoop 生态系统。 该沙盒提供一个本地开发环境,让用户了解 Hadoop、Hadoop 分布式文件系统 (HDFS) 和作业提交内容。 熟悉 Hadoop 之后,便可以开始在 Azure 中使用 Hadoop 创建 HDInsight 群集。 有关如何入门的详细信息,请参阅在 HDInsight 中开始使用 Hadoop

先决条件

下载并安装虚拟机

  1. 浏览到 Hortonworks 下载

  2. 单击“下载 VIRTUALBOX”,将最新的 Hortonworks 沙盒下载到 VM 上。 开始下载之前,网站会提示在 Hortonworks 上注册。 下载需要一到两个小时,具体取决于网络速度。

    用于下载 Hortonworks Sandbox for VirtualBox 的链接图像

  3. 在同一网页上,单击“在 Virtual Box 上导入” 链接,下载包含虚拟机安装说明的 PDF。

若要下载较旧的 HDP 版本沙盒,请展开存档:

Hortonworks 沙盒存档

启动虚拟机

  1. 打开 Oracle VM VirtualBox。
  2. 在“文件”菜单上,单击“导入设备”,然后指定 Hortonworks 沙盒映像。
  3. 选择 Hortonworks 沙盒,依次单击“启动”、“正常启动”。 虚拟机完成启动过程后,显示登录说明。

    正常启动

  4. 打开 Web 浏览器并导航到显示的 URL(通常是 http://127.0.0.1:8888)。

设置沙盒密码

  1. 在“Hortonworks 沙盒”页的“开始”步骤中,选择“查看高级选项”。 使用此页上的信息通过 SSH 登录到沙盒。 使用提供的名称和密码。

    Note

    如果未安装 SSH 客户端,可以使用虚拟机在 http://localhost:4200/ 上提供的基于 Web 的 SSH。

    首次使用 SSH 建立连接时,系统会提示更改 root 帐户的密码。 输入新密码,在使用 SSH 登录时将使用该密码。

  2. 登录后,请输入以下命令:

     ambari-admin-password-reset
    

    出现提示时,请提供 Ambari 管理员帐户的密码。 访问 Ambari Web UI 时要用到此密码。

使用 Hive 命令

  1. 与沙盒建立 SSH 连接后,使用以下命令启动 Hive shell:

     hive
    
  2. 启动 shell 后,使用以下命令查看随沙盒一起提供的表:

     show tables;
    
  3. 使用以下命令检索 sample_07 表中的 10 行数据:

     select * from sample_07 limit 10;
    

后续步骤