Apache Spark 准则Apache Spark guidelines

本文提供在 Azure HDInsight 上使用 Apache Spark 的各种准则。This article provides various guidelines for using Apache Spark on Azure HDInsight.

如何运行或提交 Spark 作业?How do I run or submit Spark jobs?

选项Option 文档Documents
VSCodeVSCode 使用适用于 Visual Studio Code 的 Spark 和 Hive 工具Use Spark & Hive Tools for Visual Studio Code
Jupyter NotebookJupyter Notebooks 教程:在 Azure HDInsight 中的 Apache Spark 群集上加载数据并运行查询Tutorial: Load data and run queries on an Apache Spark cluster in Azure HDInsight
IntelliJIntelliJ 教程:使用 Azure Toolkit for IntelliJ 为 HDInsight 群集创建 Apache Spark 应用程序Tutorial: Use Azure Toolkit for IntelliJ to create Apache Spark applications for an HDInsight cluster
IntelliJIntelliJ 教程:使用 IntelliJ 在 HDInsight 中创建适用于 Apache Spark 的 Scala Maven 应用程序Tutorial: Create a Scala Maven application for Apache Spark in HDInsight using IntelliJ
Zeppelin 笔记本Zeppelin notebooks 在 Azure HDInsight 上的 Apache Spark 群集中使用 Apache Zeppelin 笔记本Use Apache Zeppelin notebooks with Apache Spark cluster on Azure HDInsight
使用 Livy 进行远程作业提交Remote job submission with Livy 使用 Apache Spark REST API 将远程作业提交到 HDInsight Spark 群集Use Apache Spark REST API to submit remote jobs to an HDInsight Spark cluster
Apache OozieApache Oozie Oozie 是一个管理 Hadoop 作业的工作流和协调系统。Oozie is a workflow and coordination system that manages Hadoop jobs.
Apache LivyApache Livy 可以使用 Livy 运行交互式 Spark shell,或提交要在 Spark 上运行的批处理作业。You can use Livy to run interactive Spark shells or submit batch jobs to be run on Spark.
适用于 Apache Spark 的 Azure 数据工厂Azure Data Factory for Apache Spark 数据工厂管道中的 Spark 活动在自己或[按需] HDInsight 群集上执行 Spark 程序。The Spark activity in a Data Factory pipeline executes a Spark program on your own or [on-demand HDInsight cluster.
适用于 Apache Hive 的 Azure 数据工厂Azure Data Factory for Apache Hive 数据工厂管道中的 HDInsight Hive 活动会在你自己的或按需 HDInsight 群集上执行 Hive 查询。The HDInsight Hive activity in a Data Factory pipeline executes Hive queries on your own or on-demand HDInsight cluster.

如何监视和调试 Spark 作业?How do I monitor and debug Spark jobs?

选项Option 文档Documents
Azure Toolkit for IntelliJAzure Toolkit for IntelliJ 使用 Azure Toolkit for IntelliJ 进行失败 Spark 作业调试(预览)Failure spark job debugging with Azure Toolkit for IntelliJ (preview)
通过 SSH 使用的 Azure Toolkit for IntelliJAzure Toolkit for IntelliJ through SSH 使用 Azure Toolkit for IntelliJ 通过 SSH 在本地或远程调试 HDInsight 群集上的 Apache Spark 应用程序Debug Apache Spark applications locally or remotely on an HDInsight cluster with Azure Toolkit for IntelliJ through SSH
通过 VPN 使用的 Azure Toolkit for IntelliJAzure Toolkit for IntelliJ through VPN 使用 Azure Toolkit for IntelliJ 通过 VPN 在 HDInsight 中远程调试 Apache Spark 应用程序Use Azure Toolkit for IntelliJ to debug Apache Spark applications remotely in HDInsight through VPN
Apache Spark History Server 上的作业图形Job graph on Apache Spark History Server 使用扩展的 Apache Spark History Server 调试和诊断 Apache Spark 应用程序Use extended Apache Spark History Server to debug and diagnose Apache Spark applications

如何使 Spark 作业更高效地运行?How do I make my Spark jobs run more efficiently?

选项Option 文档Documents
IO 缓存IO Cache 使用 Azure HDInsight IO 缓存提高 Apache Spark 工作负载的性能(预览版)Improve performance of Apache Spark workloads using Azure HDInsight IO Cache (Preview)
配置选项Configuration options 优化 Apache Spark 作业Optimize Apache Spark jobs

如何连接到其他 Azure 服务?How do I connect to other Azure Services?

选项Option 文档Documents
HDInsight 上的 Apache HiveApache Hive on HDInsight 将 Apache Spark 和 Apache Hive 与 Hive Warehouse Connector 集成Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector
Apache HBase on HDInsightApache HBase on HDInsight 使用 Apache Spark 读取和写入 Apache HBase 数据Use Apache Spark to read and write Apache HBase data
Apache Kafka on HDInsightApache Kafka on HDInsight 教程:将 Apache Spark 结构化流式处理与 Apache Kafka on HDInsight 配合使用Tutorial: Use Apache Spark Structured Streaming with Apache Kafka on HDInsight
Azure Cosmos DBAzure Cosmos DB Azure Cosmos DB:在 Azure 平台上实现 lambda 体系结构Azure Cosmos DB: Implement a lambda architecture on the Azure platform

可以使用哪些存储选项?What are my storage options?

选项Option 文档Documents
Azure Data Lake Storage Gen2Azure Data Lake Storage Gen2 将 Azure Data Lake Storage Gen2 用于 Azure HDInsight 群集Use Azure Data Lake Storage Gen2 with Azure HDInsight clusters
Azure Blob 存储Azure Blob Storage 将 Azure 存储与 Azure HDInsight 群集配合使用Use Azure storage with Azure HDInsight clusters

后续步骤Next steps