Spark 上的 Pandas API

注意

此功能适用于运行 Databricks Runtime 10.0 及更高版本的群集。对于运行 Databricks Runtime 9.1 LTS 及更低版本群集，请改用 Koalas 。

数据科学家通常使用pandas是一个Python包，为Python编程语言提供易于使用的数据结构和数据分析工具。但是，Pandas 不会横向扩展到大数据。 Spark 上的 Pandas API 可提供在 Apache Spark 上运行的、与 Pandas 等效的 API，从而填补这一空白。 Spark 上的 Pandas API 不仅对 Pandas 用户很有用，而且对 PySpark 用户也很有用，因为 Spark 上的 Pandas API 支持许多难以使用 PySpark 执行的任务，例如直接从 PySpark DataFrame 绘制数据。

要求

Spark 上的 Pandas API 从 Apache Spark 3.2 开始提供（从 Databricks Runtime 10.0 开始），使用以下 import 语句：

import pyspark.pandas as ps

Notebook

以下笔记本演示如何从 Pandas 迁移到 Spark 上的 Pandas API。

Pandas 到 Spark 上的 Pandas API 笔记本

获取笔记本

资源

Last updated on 2026-06-01

Spark 上的 Pandas API

要求

Notebook

Pandas 到 Spark 上的 Pandas API 笔记本

资源

其他资源