使用 Windows 电脑在 HDInsight 上的 Apache Hadoop 生态系统中工作Work in the Apache Hadoop ecosystem on HDInsight from a Windows PC

了解 Windows 电脑上用于在 HDInsight 的 Apache Hadoop 生态系统中工作的开发和管理选项。Learn about development and management options on the Windows PC for working in the Apache Hadoop ecosystem on HDInsight.

HDInsight 基于在 Linux 上开发的 Apache Hadoop 和 Hadoop 组件与开源技术。HDInsight is based on Apache Hadoop and Hadoop components, open-source technologies developed on Linux. HDInsight 3.4 及更高版本使用 Ubuntu Linux 发行版作为群集的基础 OS。HDInsight version 3.4 and higher uses the Ubuntu Linux distribution as the underlying OS for the cluster. 但是,可以通过 Windows 客户端或 Windows 开发环境使用 HDInsight。However, you can work with HDInsight from a Windows client or Windows development environment.

使用 PowerShell 完成部署和管理任务Use PowerShell for deployment and management tasks

Azure PowerShell 是一个脚本编写环境,使用它可以通过 Windows 在 HDInsight 中控制和自动完成部署与管理任务。Azure PowerShell is a scripting environment that you can use to control and automate deployment and management tasks in HDInsight from Windows.

可以使用 PowerShell 完成的任务示例:Examples of tasks you can do with PowerShell:

请遵循安装和配置 Azure Powershell 的步骤来获取最新版本。Follow steps to install and configure Azure Powershell to get the latest version.

可在浏览器中运行的实用工具Utilities you can run in a browser

以下实用工具提供可在浏览器中运行的 Web UI:The following utilities have a web UI that runs in a browser:

用于 Visual Studio 的 Data Lake (Hadoop) 工具Data Lake (Hadoop) Tools for Visual Studio

使用用于 Visual Studio 的 Data Lake 工具可以部署和管理 Storm 拓扑。Use Data Lake Tools for Visual Studio to deploy and manage Storm topologies. Data Lake 工具还会安装 SCP.NET SDK 用于通过 Visual Studio 开发 C# Storm 拓扑。Data Lake Tools also installs the SCP.NET SDK, which allows you to develop C# Storm topologies with Visual Studio.

在转到下面的示例之前,请安装并试用用于 Visual Studio 的 Data Lake 工具Before you go to the following examples, install and try Data Lake Tools for Visual Studio.

可以使用用于 Visual Studio 的 Data Lake 工具完成的任务示例:Examples of tasks you can do with Visual Studio and Data Lake Tools for Visual Studio:

Visual Studio 和 .NET SDKVisual Studio and the .NET SDK

可以配合使用 Visual Studio 和 .NET SDK 来管理群集及开发大数据应用程序。You can use Visual Studio with the .NET SDK to manage clusters and develop big data applications. 可将其他 IDE 用于以下任务,但示例显示在 Visual Studio 中。You can use other IDEs for the following tasks, but examples are shown in Visual Studio.

可在 Visual Studio 中使用 .NET SDK 完成的任务示例:Examples of tasks you can do with the .NET SDK in Visual Studio:

用于 Spark 群集的 Intellij IDEA 和 Eclipse IDEIntellij IDEA and Eclipse IDE for Spark clusters

Intellij IDEAEclipse IDE 都可用于:Both Intellij IDEA and the Eclipse IDE can be used to:

  • 在 HDInsight Spark 群集中开发和提交 Scala Spark 应用程序。Develop and submit a Scala Spark application on an HDInsight Spark cluster.
  • 访问 Spark 群集资源。Access Spark cluster resources.
  • 本地开发和运行 Scala Spark 应用程序。Develop and run a Scala Spark application locally.

以下文章介绍了相关信息:These articles show how:

Spark 上面向数据科研人员的 NotebookNotebooks on Spark for data scientists

HDInsight 中的 Apache Spark 群集包含可与 Jupyter Notebook 配合使用的 Apache Zeppelin Notebook 和内核。Apache Spark clusters in HDInsight include Apache Zeppelin notebooks and kernels that can be used with Jupyter notebooks.

在 Windows 上运行基于 Linux 的工具和技术Run Linux-based tools and technologies on Windows

如果遇到必须使用仅在 Linux 上可用的工具或技术的情况,请考虑以下选项:If you come across a situation where you must use a tool or technology that is only available on Linux, consider the following options:

  • Windows 10 版 Bash on Ubuntu 在 Windows 上提供一个 Linux 子系统。Bash on Ubuntu on Windows 10 provides a Linux subsystem on Windows. Bash 允许直接运行 Linux 实用工具,而无需维护专用的 Linux 安装。Bash allows you to directly run Linux utilities without having to maintain a dedicated Linux installation. 有关安装步骤,请参阅适用于 Linux 的 Windows 子系统 (Windows 10) 安装指南See Windows Subsystem for Linux Installation Guide for Windows 10 for installation steps. 其他 Unix shell 也将适用。Other Unix shells will work as well.
  • 使用 适用于 Windows 的 Docker 可以访问许多基于 Linux 的工具,可以直接从 Windows 运行。Docker for Windows provides access to many Linux-based tools, and can be run directly from Windows. 例如,可以直接在 Windows 中使用 Docker 来运行适用于 Hive 的 Beeline 客户端。For example, you can use Docker to run the Beeline client for Hive directly from Windows. 还可以使用 Docker 运行本地 Jupyter Notebook,以及远程连接到 Spark on HDInsight。You can also use Docker to run a local Jupyter notebook and remotely connect to Spark on HDInsight. 适用于 Windows 的 Docker 入门Get started with Docker for Windows
  • 使用 MobaXTerm 可以通过 SSH 连接以图形方式浏览群集文件系统。MobaXTerm allows you to graphically browse the cluster file system over an SSH connection.

跨平台工具Cross-platform tools

Azure 命令行接口 (CLI) 是用于管理 Azure 资源的 Microsoft 跨平台命令行体验。The Azure command-line interface (CLI) is Microsoft's cross-platform command-line experience for managing Azure resources. 有关详细信息,请参阅 Azure 命令行接口 (CLI)For more information, see Azure Command-Line Interface (CLI).

后续步骤Next steps

如果不太熟悉如何在基于 Linux 的群集中操作,请参阅以下文章:If you're new to working in Linux-based clusters, see the follow articles: