Apache Spark API 参考
Azure Databricks 基于 Apache Spark 构建,是用于大数据和机器学习的统一分析引擎。 有关详细信息,请参阅 Azure Databricks 上的 Apache Spark。
Apache Spark 提供用于以多种语言操作大型数据集的数据帧 API,其中包括 100 多个运算符。
- 适用于 Python 开发人员的 PySpark API。 请参阅教程:使用 Apache Spark 数据帧加载和转换数据。 关键类包括:
- SparkSession - 使用数据集和数据帧 API 对 Spark 进行编程的入口点。
- 数据帧 - 已分组到命名列的分布式数据集合。 请参阅数据帧和基于数据帧的 MLlib。
- 适用于 R 开发人员的 SparkR API。 关键类包括:
- SparkSession - SparkSession 是 SparkR 的入口点。 请参阅起点:SparkSession。
- Spark 数据帧 - 已分组到命名列的分布式数据集合。 请参阅数据集和数据帧、创建数据帧和创建 Spark 数据帧。
- 面向 Scala 开发人员的 Scala API。 关键类包括:
- SparkSession - 使用数据集和数据帧 API 对 Spark 进行编程的入口点。 请参阅起点:SparkSession。
- 数据集 - 域特定对象的强类型集合,可以使用函数或关系操作并行转换。 每个
Dataset
还有一个名为 DataFrame(即行的Dataset
)的非类型化视图。 请参阅数据集和数据帧、创建数据集、创建数据帧和数据帧函数。
- 面向 Java 开发人员的 Java API。 关键类包括:
- SparkSession - 使用数据集和数据帧 API 对 Spark 进行编程的入口点。 请参阅起点:SparkSession。
- 数据集 - 域特定对象的强类型集合,可以使用函数或关系操作并行转换。 每个
Dataset
还有一个名为 DataFrame(即行的Dataset
)的非类型化视图。 请参阅数据集和数据帧、创建数据集、创建数据帧和数据帧函数。
要了解如何在 Azure Databricks 上使用 Apache Spark API,请参阅:
- Azure Databricks 上的 PySpark
- 适用于 R 开发人员的 Azure Databricks
- 适用于 Scala 开发人员的 Azure Databricks
- 对于 Java,可以将 Java 代码作为 JAR 作业运行。