在 HDInsight Hadoop 群集上安装并使用 R

了解如何使用 R 通过脚本操作来自定义基于 Windows 的 HDInsight 群集,以及如何在 HDInsight 群集上使用 R。

可以使用脚本操作在 Azure HDInsight 上任何类型的群集(Hadoop、Storm、HBase、Spark)上安装 R。 用于在 HDInsight 群集上安装 R 的示例脚本可通过 https://hdiconfigactions.blob.core.chinacloudapi.cn/rconfigactionv02/r-installer-v02.ps1上的只读 Azure 存储 Blob 获得。

相关文章

什么是 R?

统计计算的 R 项目是一种用于统计计算的开放源代码语言和环境。 R 提供了数百个内置统计函数及其自己的编程语言,该语言结合了各方面的函数编程和面向对象的编程。 它还提供了各种图形功能。 R 是面向各个领域最专业的统计学家和科学家的首选编程环境。

R 与 Azure Blob 存储 (WASB) 兼容,这样,存储在此的数据可以在 HDInsight 上使用 R 进行处理。

安装 R

用于在 HDInsight 群集上安装 R 的 示例脚本 可从 Azure 存储中的只读 Blob 获得。 本部分提供有关如何在使用 Azure 门户创建群集时使用示例脚本的说明。

Note

示例脚本是随同 HDInsight 群集版本 3.1 一起引入的。 有关 HDInsight 群集版本的详细信息,请参阅 HDInsight 群集版本

  1. 从门户创建 HDInsight 群集时,可先单击“可选配置”,然后单击“脚本操作”。
  2. 在“脚本操作” 页上,输入以下值:

    使用脚本操作自定义群集

    属性
    名称 指定脚本操作的名称,例如 Install R
    脚本 URI 指定调用其对应脚本可自定义群集的 URI,例如 https://hdiconfigactions.blob.core.chinacloudapi.cn/rconfigactionv02/r-installer-v02.ps1
    节点类型 指定在其上运行自定义脚本的节点。 可以选择“所有节点”、“仅限头节点”或“仅限辅助角色节点”
    Parameters 根据脚本的需要,请指定参数。 但是,用于安装 R 的脚本不需要任何参数,因此,可以将此项保留为空。

    你可以添加多个脚本操作,以在群集上安装多个组件。 在添加了脚本后,单击复选标记以开始创建群集。

还可以通过 Azure PowerShell 或 HDInsight .NET SDK 使用脚本在 HDInsight 上安装 R。 有关这些过程的说明在本文后面提供。

运行 R 脚本

本部分介绍如何在安装有 HDInsight 的 Hadoop 群集上运行 R 脚本。

  1. 与群集建立远程桌面连接:在门户中,对创建的安装有 R 的群集启用远程桌面,然后连接到该群集。 有关说明,请参阅使用 RDP 连接到 HDInsight 群集
  2. 打开 R 控制台:R 安装将 R 控制台的链接放置在头节点的桌面上。 单击它以打开 R 控制台。
  3. 运行 R 脚本:通过粘贴并选择 R 脚本,然后按 ENTER,可以从 R 控制台直接运行该脚本。 下面是一个简单的示例脚本,该脚本将生成 1 到 100 的数字,然后将其乘以 2。

     library(rmr2)
     library(rhdfs)
     ints = to.dfs(1:100)
     calc = mapreduce(input = ints, map = function(k, v) cbind(v, 2*v))
     from.dfs(calc)
    

前两行调用随 R 一起安装的 RHadoop 库。最后一行将结果打印到控制台。 输出应如下所示:

[1,]  1 2
[2,]  2 4
.
.
.
[98,]  98 196
[99,]  99 198
[100,] 100 200

使用 Azure PowerShell 安装 R

请参阅使用脚本操作自定义 HDInsight 群集。 此示例演示如何使用 Azure PowerShell 安装 Spark。 你需要自定义要使用的脚本 https://hdiconfigactions.blob.core.chinacloudapi.cn/rconfigactionv02/r-installer-v02.ps1

使用 .NET SDK 安装 R

请参阅使用脚本操作自定义 HDInsight 群集。 此示例演示如何使用 .NET SDK 安装 Spark。 你需要自定义要使用的脚本 https://hdiconfigactions.blob.core.chinacloudapi.cn/rconfigactionv02/r-installer-v02.ps1

另请参阅