使用 Windows 电脑在 HDInsight 上的 Apache Hadoop 生态系统中工作

了解 Windows 电脑上用于在 HDInsight 的 Apache Hadoop 生态系统中工作的开发和管理选项。

HDInsight 基于在 Linux 上开发的 Apache Hadoop 和 Hadoop 组件与开源技术。 HDInsight 3.4 及更高版本使用 Ubuntu Linux 发行版作为群集的基础 OS。 但是,可以通过 Windows 客户端或 Windows 开发环境使用 HDInsight。

使用 PowerShell 完成部署和管理任务

Azure PowerShell 是一个脚本编写环境,使用它可以通过 Windows 在 HDInsight 中控制和自动完成部署与管理任务。

可以使用 PowerShell 完成的任务示例:

请遵循安装和配置 Azure Powershell 的步骤来获取最新版本。

可在浏览器中运行的实用工具

以下实用工具提供可在浏览器中运行的 Web UI:

在转到下面的示例之前,请安装并试用用于 Visual Studio 的 Data Lake 工具

Visual Studio 和 .NET SDK

可以配合使用 Visual Studio 和 .NET SDK 来管理群集及开发大数据应用程序。 可将其他 IDE 用于以下任务,但示例显示在 Visual Studio 中。

可在 Visual Studio 中使用 .NET SDK 完成的任务示例:

用于 Spark 群集的 Intellij IDEA 和 Eclipse IDE

Intellij IDEAEclipse IDE 都可用于:

  • 在 HDInsight Spark 群集中开发和提交 Scala Spark 应用程序。
  • 访问 Spark 群集资源。
  • 本地开发和运行 Scala Spark 应用程序。

以下文章介绍了相关信息:

Spark 上面向数据科研人员的 Notebook

HDInsight 中的 Apache Spark 群集包含可与 Jupyter Notebook 配合使用的 Apache Zeppelin Notebook 和内核。

在 Windows 上运行基于 Linux 的工具和技术

如果遇到必须使用仅在 Linux 上可用的工具或技术的情况,请考虑以下选项:

  • Windows 10 版 Bash on Ubuntu 在 Windows 上提供一个 Linux 子系统。 Bash 允许直接运行 Linux 实用工具,而无需维护专用的 Linux 安装。 有关安装步骤,请参阅适用于 Linux 的 Windows 子系统 (Windows 10) 安装指南。 其他 Unix shell 也适用。
  • 使用适用于 Windows 的 Docker 可以访问许多基于 Linux 的工具,可以直接从 Windows 运行。 例如,可以直接在 Windows 中使用 Docker 来运行适用于 Hive 的 Beeline 客户端。 还可以使用 Docker 运行本地 Jupyter Notebook,以及远程连接到 Spark on HDInsight。 适用于 Windows 的 Docker 入门
  • 使用 MobaXTerm 可以通过 SSH 连接以图形方式浏览群集文件系统。

跨平台工具

Azure 命令行接口 (CLI) 是用于管理 Azure 资源的 Azure 跨平台命令行体验。 有关详细信息,请参阅 Azure 命令行接口 (CLI)

后续步骤

如果不太熟悉如何在基于 Linux 的群集中操作,请参阅以下文章: