Apache Spark 准则Apache Spark guidelines
本文提供在 Azure HDInsight 上使用 Apache Spark 的各种准则。This article provides various guidelines for using Apache Spark on Azure HDInsight.
如何运行或提交 Spark 作业?How do I run or submit Spark jobs?
如何监视和调试 Spark 作业?How do I monitor and debug Spark jobs?
选项Option | 文档Documents |
---|---|
Azure Toolkit for IntelliJAzure Toolkit for IntelliJ | 使用 Azure Toolkit for IntelliJ 进行失败 Spark 作业调试(预览)Failure spark job debugging with Azure Toolkit for IntelliJ (preview) |
通过 SSH 使用的 Azure Toolkit for IntelliJAzure Toolkit for IntelliJ through SSH | 使用 Azure Toolkit for IntelliJ 通过 SSH 在本地或远程调试 HDInsight 群集上的 Apache Spark 应用程序Debug Apache Spark applications locally or remotely on an HDInsight cluster with Azure Toolkit for IntelliJ through SSH |
通过 VPN 使用的 Azure Toolkit for IntelliJAzure Toolkit for IntelliJ through VPN | 使用 Azure Toolkit for IntelliJ 通过 VPN 在 HDInsight 中远程调试 Apache Spark 应用程序Use Azure Toolkit for IntelliJ to debug Apache Spark applications remotely in HDInsight through VPN |
Apache Spark History Server 上的作业图形Job graph on Apache Spark History Server | 使用扩展的 Apache Spark History Server 调试和诊断 Apache Spark 应用程序Use extended Apache Spark History Server to debug and diagnose Apache Spark applications |
如何使 Spark 作业更高效地运行?How do I make my Spark jobs run more efficiently?
选项Option | 文档Documents |
---|---|
IO 缓存IO Cache | 使用 Azure HDInsight IO 缓存提高 Apache Spark 工作负载的性能(预览版)Improve performance of Apache Spark workloads using Azure HDInsight IO Cache (Preview) |
配置选项Configuration options | 优化 Apache Spark 作业Optimize Apache Spark jobs |
如何连接到其他 Azure 服务?How do I connect to other Azure Services?
选项Option | 文档Documents |
---|---|
HDInsight 上的 Apache HiveApache Hive on HDInsight | 将 Apache Spark 和 Apache Hive 与 Hive Warehouse Connector 集成Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector |
Apache HBase on HDInsightApache HBase on HDInsight | 使用 Apache Spark 读取和写入 Apache HBase 数据Use Apache Spark to read and write Apache HBase data |
Apache Kafka on HDInsightApache Kafka on HDInsight | 教程:将 Apache Spark 结构化流式处理与 Apache Kafka on HDInsight 配合使用Tutorial: Use Apache Spark Structured Streaming with Apache Kafka on HDInsight |
Azure Cosmos DBAzure Cosmos DB | Azure Synapse Link for Azure Cosmos DBAzure Synapse Link for Azure Cosmos DB |
可以使用哪些存储选项?What are my storage options?
选项Option | 文档Documents |
---|---|
Azure Data Lake Storage Gen2Azure Data Lake Storage Gen2 | 将 Azure Data Lake Storage Gen2 用于 Azure HDInsight 群集Use Azure Data Lake Storage Gen2 with Azure HDInsight clusters |
Azure Blob 存储Azure Blob Storage | 将 Azure 存储与 Azure HDInsight 群集配合使用Use Azure storage with Azure HDInsight clusters |