Apache Spark API 参考

2025/05/06

Azure Databricks 基于 Apache Spark 构建，是用于大数据和机器学习的统一分析引擎。有关详细信息，请参阅 Azure Databricks 上的 Apache Spark。

Apache Spark 提供用于以多种语言操作大型数据集的数据帧 API，其中包括 100 多个运算符。

适用于 Python 开发人员的 PySpark API。请参阅教程：使用 Apache Spark 数据帧加载和转换数据。关键类包括：
- SparkSession - 使用数据集和数据帧 API 对 Spark 进行编程的入口点。
- 数据帧 - 已分组到命名列的分布式数据集合。请参阅数据帧和基于数据帧的 MLlib。
（已弃用）适用于 R 开发人员的 SparkR API。关键类包括：
- SparkSession - SparkSession 是 SparkR 的入口点。请参阅起点：SparkSession。
- Spark 数据帧 - 已分组到命名列的分布式数据集合。请参阅数据集和数据帧、创建数据帧和创建 Spark 数据帧。
面向 Scala 开发人员的 Scala API。关键类包括：
- SparkSession - 使用数据集和数据帧 API 对 Spark 进行编程的入口点。请参阅起点：SparkSession。
- 数据集 - 域特定对象的强类型集合，可以使用函数或关系操作并行转换。每个 Dataset 还有一个名为 DataFrame（即行的 Dataset）的非类型化视图。请参阅数据集和数据帧、创建数据集、创建数据帧和数据帧函数。
面向 Java 开发人员的 Java API。关键类包括：
- SparkSession - 使用数据集和数据帧 API 对 Spark 进行编程的入口点。请参阅起点：SparkSession。
- 数据集 - 域特定对象的强类型集合，可以使用函数或关系操作并行转换。每个 Dataset 还有一个名为 DataFrame（即行的 Dataset）的非类型化视图。请参阅数据集和数据帧、创建数据集、创建数据帧和数据帧函数。

要了解如何在 Azure Databricks 上使用 Apache Spark API，请参阅：

Microsoft Ignite

通过

通过

Apache Spark API 参考

其他资源