Spark 上的 Pandas API

注意

此功能适用于运行 Databricks Runtime 10.0 (EoL) 及更高版本的群集。 对于运行 Databricks Runtime 9.1 LTS 及更低版本的群集,请改用 Koalas

Pandas 是一种数据科学家常用的 Python 包,可为 Python 编程语言提供易于使用的数据结构和数据分析工具。 但是,Pandas 不会横向扩展到大数据。 Spark 上的 Pandas API 可提供在 Apache Spark 上运行的、与 Pandas 等效的 API,从而填补这一空白。 Spark 上的 Pandas API 不仅对 Pandas 用户很有用,而且对 PySpark 用户也很有用,因为 Spark 上的 Pandas API 支持许多难以使用 PySpark 执行的任务,例如直接从 PySpark DataFrame 绘制数据。

要求

Spark 上的 Pandas API 自 Apache Spark 3.2 开始上线(从Databricks Runtime 10.0(EoL)开始),可以通过以下语句使用:

import pyspark.pandas as ps

Notebook

以下笔记本演示如何从 Pandas 迁移到 Spark 上的 Pandas API。

Pandas 到 Spark 上的 Pandas API 笔记本

获取笔记本

资源