Spark 上的 Pandas API

注意

此功能在运行 Databricks Runtime 10.0(不受支持)及更高版本的集群上可用。 对于运行 Databricks Runtime 9.1 LTS 及更低版本的群集,请改用 Koalas

Pandas 是一种数据科学家常用的 Python 包,可为 Python 编程语言提供易于使用的数据结构和数据分析工具。 但是,Pandas 不会横向扩展到大数据。 Spark 上的 Pandas API 可提供在 Apache Spark 上运行的、与 Pandas 等效的 API,从而填补这一空白。 Spark 上的 Pandas API 不仅对 Pandas 用户很有用,而且对 PySpark 用户也很有用,因为 Spark 上的 Pandas API 支持许多难以使用 PySpark 执行的任务,例如直接从 PySpark DataFrame 绘制数据。

要求

从 Apache Spark 3.2 开始,可通过以下 import 语句使用 Spark 上的 Pandas API(包含在 Databricks Runtime 10.0(不受支持)及更高版本中):

import pyspark.pandas as ps

笔记本

以下笔记本演示如何从 Pandas 迁移到 Spark 上的 Pandas API。

“Pandas 到 Spark 上的 Pandas API”笔记本

获取笔记本

资源