Compartir a través de

通过 Windows 电脑在 HDInsight 上的 Apache Hadoop 生态系统中工作

了解Windows电脑上用于在 HDInsight 上的 Apache Hadoop 生态系统中工作的开发和管理选项。

HDInsight 基于在 Linux 上开发的 Apache Hadoop 和 Hadoop 组件与开源技术。 HDInsight 3.4 及更高版本使用 Ubuntu Linux 发行版作为群集的基础 OS。 但是,可以从Windows客户端或Windows开发环境使用 HDInsight。

使用 PowerShell 完成部署和管理任务

Azure PowerShell是一个脚本环境,可用于从 Windows 控制和管理 HDInsight 中的部署和管理任务。

可以使用 PowerShell 完成的任务示例:

按照以下步骤安装并配置 Azure PowerShell 以获取最新版本。

可在浏览器中运行的实用工具

以下实用工具提供可在浏览器中运行的 Web UI:

在转到以下示例之前,安装并尝试使用 Data Lake Tools for Visual Studio

Visual Studio和.NET SDK

可以将Visual Studio与 .NET SDK 配合使用来管理群集并开发大数据应用程序。 可以将其他 IDE 用于以下任务,但示例显示在Visual Studio中。

可以在 Visual Studio 中使用 .NET SDK 执行的任务示例:

用于 Spark 群集的 IntelliJ IDEA 和 Eclipse IDE

IntelliJ IDEAEclipse IDE 都可用于:

  • 在 HDInsight Spark 群集中开发和提交 Scala Spark 应用程序。
  • 访问 Spark 群集资源。
  • 本地开发和运行 Scala Spark 应用程序。

以下文章介绍了相关信息:

Spark 上面向数据科研人员的 Notebook

HDInsight 中的 Apache Spark 群集包含 Apache Zeppelin 笔记本和内核,可与 Jupyter 笔记本配合使用。

在 Windows 上运行基于 Linux 的工具和技术

如果遇到必须使用仅在 Linux 上可用的工具或技术的情况,请考虑以下选项:

  • Windows 10 上的 Ubuntu 上的 Bash 提供了 Windows 的 Linux 子系统。 Bash 允许直接运行 Linux 实用工具,而无需维护专用的 Linux 安装。 有关安装步骤,请参阅 适用于 Linux 的 Windows 子系统 Windows 10 安装指南。 其他 Unix shell 也能正常运作。
  • Docker for Windows提供对许多基于 Linux 的工具的访问权限,可以直接从Windows运行。 例如,可以使用 Docker 直接从 Windows 运行 Hive 的 Beeline 客户端。 还可以使用 Docker 运行本地Jupyter Notebook并远程连接到 HDInsight 上的 Spark。 开始使用 Docker for Windows
  • 使用 MobaXTerm 可以通过 SSH 连接以图形方式浏览群集文件系统。

跨平台工具

Azure命令行接口(CLI)是Azure用于管理Azure资源的跨平台命令行体验。 有关详细信息,请参阅 Azure Command-Line 接口 (CLI)

后续步骤

如果不太熟悉如何在基于 Linux 的群集中操作,请参阅以下文章: