Koalas

重要

本文档已过时,将来可能不会更新。 本内容中提及的产品、服务或技术不再受支持。 请参阅 Spark 上的 Pandas API

注意

Koalas 已弃用。 如果尝试在运行 Databricks Runtime 10.0(不受支持)及更高版本的群集上使用 Koalas,系统将显示一条信息性消息,建议你改用 Spark 上的 Pandas API

Koalas 可直接替代 pandas。 Pandas 是数据科学家常用的一个 Python 包,它为 Python 编程语言提供了易于使用的数据结构和数据分析工具。 但是,Pandas 不会横向扩展到大数据。 Koalas 可提供在 Apache Spark 上运行的、与 Pandas 等效的 API,从而填补这一空白。 Koalas 不仅对 Pandas 用户很有用,而且对 PySpark 用户也很有用,因为 Koalas 支持许多难以使用 PySpark 执行的任务,例如直接从 PySpark DataFrame 绘制数据。

要求

  • Koalas 包含在运行 Databricks Runtime 7.3 到 9.1 版本的群集中。 对于运行 Databricks Runtime 10.0 及更高版本的群集,请改用 Spark 上的 Pandas API
  • 要在运行 Databricks Runtime 7.0 或更低版本的群集上使用 Koalas,请将 Koalas 安装为 Azure Databricks PyPI 库
  • 要在 IDE、笔记本服务器或连接到 Azure Databricks 群集的其他自定义应用程序中使用 Koalas,请安装 Databricks Connect 并按照 Koalas 安装说明进行操作。

笔记本

以下笔记本演示如何从 pandas 迁移到 Koalas。

pandas 到 Koalas 笔记本

获取笔记本

资源