Apache Spark 准则

本文提供在 Azure HDInsight 上使用 Apache Spark 的各种准则。

如何运行或提交 Spark 作业?

选项 文档
Visual Studio Code 使用适用于 Visual Studio Code 的 Spark & Hive Tools
Jupyter Notebook 教程:在 Azure HDInsight 中的 Apache Spark 群集上加载数据并运行查询
IntelliJ 教程:使用 Azure Toolkit for IntelliJ 为 HDInsight 群集创建 Apache Spark 应用程序
IntelliJ 教程:使用 IntelliJ 在 HDInsight 中创建适用于 Apache Spark 的 Scala Maven 应用程序
Zeppelin 笔记本 在 Azure HDInsight 上的 Apache Spark 群集中使用 Apache Zeppelin 笔记本
使用 Livy 进行远程作业提交 使用 Apache Spark REST API 将远程作业提交到 HDInsight Spark 群集
Apache Oozie Oozie 是一个管理 Hadoop 作业的工作流和协调系统。
Apache Livy 可以使用 Livy 运行交互式 Spark shell,或提交要在 Spark 上运行的批处理作业。
适用于 Apache Spark 的 Azure 数据工厂 数据工厂管道中的 Spark 活动在自己或[按需] HDInsight 群集上执行 Spark 程序。
适用于 Apache Hive 的 Azure 数据工厂 数据工厂管道中的 HDInsight Hive 活动会在你自己的或按需 HDInsight 群集上执行 Hive 查询。

如何监视和调试 Spark 作业?

如何使 Spark 作业更高效地运行?

如何连接到其他 Azure 服务?

可以使用哪些存储选项?

后续步骤