Apache Spark 准则

本文提供在 Azure HDInsight 上使用 Apache Spark 的各种准则。

如何运行或提交 Spark 作业?

选项 文档
VSCode 使用适用于 Visual Studio Code 的 Spark & Hive Tools
Jupyter Notebook 教程:在 Azure HDInsight 中的 Apache Spark 群集上加载数据并运行查询
IntelliJ 教程:使用 Azure Toolkit for IntelliJ 为 HDInsight 群集创建 Apache Spark 应用程序
IntelliJ 教程:使用 IntelliJ 在 HDInsight 中创建适用于 Apache Spark 的 Scala Maven 应用程序
Zeppelin 笔记本 在 Azure HDInsight 上的 Apache Spark 群集中使用 Apache Zeppelin 笔记本
使用 Livy 进行远程作业提交 使用 Apache Spark REST API 将远程作业提交到 HDInsight Spark 群集
Apache Oozie Oozie 是一个管理 Hadoop 作业的工作流和协调系统。
Apache Livy 可以使用 Livy 运行交互式 Spark shell,或提交要在 Spark 上运行的批处理作业。
适用于 Apache Spark 的 Azure 数据工厂 数据工厂管道中的 Spark 活动在自己或[按需] HDInsight 群集上执行 Spark 程序。
适用于 Apache Hive 的 Azure 数据工厂 数据工厂管道中的 HDInsight Hive 活动会在你自己的或按需 HDInsight 群集上执行 Hive 查询。

如何监视和调试 Spark 作业?

选项 文档
Azure Toolkit for IntelliJ 使用 Azure Toolkit for IntelliJ 进行失败 Spark 作业调试(预览)
通过 SSH 使用的 Azure Toolkit for IntelliJ 使用 Azure Toolkit for IntelliJ 通过 SSH 在本地或远程调试 HDInsight 群集上的 Apache Spark 应用程序
通过 VPN 使用的 Azure Toolkit for IntelliJ 使用 Azure Toolkit for IntelliJ 通过 VPN 在 HDInsight 中远程调试 Apache Spark 应用程序
Apache Spark History Server 上的作业图形 使用扩展的 Apache Spark History Server 调试和诊断 Apache Spark 应用程序

如何使 Spark 作业更高效地运行?

选项 文档
IO 缓存 使用 Azure HDInsight IO 缓存提高 Apache Spark 工作负载的性能(预览版)
配置选项 优化 Apache Spark 作业

如何连接到其他 Azure 服务?

选项 文档
HDInsight 上的 Apache Hive 将 Apache Spark 和 Apache Hive 与 Hive Warehouse Connector 集成
Apache HBase on HDInsight 使用 Apache Spark 读取和写入 Apache HBase 数据
Apache Kafka on HDInsight 教程:将 Apache Spark 结构化流式处理与 Apache Kafka on HDInsight 配合使用
Azure Cosmos DB Azure Synapse Link for Azure Cosmos DB

可以使用哪些存储选项?

选项 文档
Azure Data Lake Storage Gen2 将 Azure Data Lake Storage Gen2 用于 Azure HDInsight 群集
Azure Blob 存储 将 Azure 存储与 Azure HDInsight 群集配合使用

后续步骤