使用 Windows 电脑在 HDInsight 上的 Hadoop 生态系统中工作

了解 Windows 电脑上用于在 HDInsight 的 Hadoop 生态系统中工作的开发和管理选项。

HDInsight 基于在 Linux 上开发的 Apache Hadoop 和 Hadoop 组件与开源技术。 HDInsight 3.4 及更高版本使用 Ubuntu Linux 发行版作为群集的基础 OS。 但是,可以通过 Windows 客户端或 Windows 开发环境使用 HDInsight。

使用 PowerShell 完成部署和管理任务

Azure PowerShell 是一个脚本编写环境,使用它可以通过 Windows 在 HDInsight 中控制和自动完成部署与管理任务。

可以使用 PowerShell 完成的任务示例:

请遵循安装和配置 Azure Powershell 的步骤来获取最新版本。 如果脚本需要修改后才能使用 Azure Resource Manager 的新 cmdlet,请参阅迁移到基于 Azure Resource Manager 的面向 HDInsight 群集的开发工具

可在浏览器中运行的实用工具

以下实用工具提供可在浏览器中运行的 Web UI:

用于 Visual Studio 的 Data Lake (Hadoop) 工具

使用用于 Visual Studio 的 Data Lake 工具可以部署和管理 Storm 拓扑。 Data Lake 工具还会安装 SCP.NET SDK 用于通过 Visual Studio 开发 C# Storm 拓扑。

在转到下面的示例之前,请安装并试用用于 Visual Studio 的 Data Lake 工具

可以使用用于 Visual Studio 的 Data Lake 工具完成的任务示例:

Visual Studio 和 .NET SDK

可以配合使用 Visual Studio 和 .NET SDK 来管理群集及开发大数据应用程序。 可将其他 IDE 用于以下任务,但示例显示在 Visual Studio 中。

可在 Visual Studio 中使用 .NET SDK 完成的任务示例:

提示:如果在基于 Windows 的 HDInsight 群集中运行 .NET 解决方案,现在正好可以计划迁移到基于 Linux 的群集。 有关详细信息,请参阅将基于 Windows 的 HDInsight 的 .NET 解决方案迁移到基于 Linux 的 HDInsight

用于 Spark 群集的 Intellij IDEA 和 Eclipse IDE

Intellij IDEAEclipse IDE 都可用于:

  • 在 HDInsight Spark 群集中开发和提交 Scala Spark 应用程序。
  • 访问 Spark 群集资源。
  • 本地开发和运行 Scala Spark 应用程序。

以下文章介绍了相关信息:

Spark 上面向数据科研人员的 Notebook

HDInsight 中的 Apache Spark 群集包含可与 Jupyter Notebook 配合使用的 Zeppelin Notebook 和内核。

在 Windows 上运行基于 Linux 的工具和技术

如果在某种情况下,必须使用的某种工具或技术只能在 Linux 上使用,请考虑以下选项:

  • Windows 10 上的 bash (beta) 在 Windows 上提供一个 Linux 子系统。 Bash 允许直接运行 Linux 实用工具,而无需维护专用的 Linux 安装。 在 Windows 10 上安装和运行 Bash beta
  • 使用适用于 Windows 的 Docker 可以访问许多基于 Linux 的工具,可以直接从 Windows 运行。 例如,可以直接在 Windows 中使用 Docker 来运行适用于 Hive 的 Beeline 客户端。 还可以使用 Docker 运行本地 Jupyter Notebook,以及远程连接到 Spark on HDInsight。 适用于 Windows 的 Docker 入门
  • 使用 MobaXTerm 可以通过 SSH 连接以图形方式浏览群集文件系统。

后续步骤

如果你不太熟悉如何在基于 Linux 的群集中操作,请参阅以下文章: