Databricks 笔记本支持适用于 Python 的 Databricks Connect

注意

本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。

使用 Databricks Connect 可从本地开发环境连接到 Databricks 计算。 然后,你可以直接从 IDE 开发、调试和测试代码,然后再将其作为 Databricks 笔记本或作业的一部分执行。 请参阅什么是 Databricks Connect?

有关将 Databricks Connect 与 Jupyter Notebook 配合使用的信息,请参阅将经典 Jupyter Notebook 与适用于 Python 的 Databricks Connect 配合使用。

限制

为了从本地开发过渡到 Databricks 无缝部署,所有 Databricks Connect API 可在 Databricks 笔记本中使用。 这样就可以在 Databricks 笔记本中运行代码,而无需对代码进行任何更改。 但是,在本地开发环境中与在 Databricks 笔记本和作业中使用适用于 Python Databricks Connect 之间存在一些差异:

  • 在 IDE 中本地开发时,spark = DatabricksSession.builder.getOrCreate() 获取所提供配置的现有 Spark 会话(如果存在),或者创建一个新会话(如果不存在)。 连接参数,例如 hosttokencluster_id 是从源代码、环境变量或 .databrickscfg 配置文件填充的。
  • 在 Databricks 笔记本中进行开发时,spark = DatabricksSession.builder.getOrCreate() 在不使用任何其他配置的情况下,返回默认的 Spark 会话(也可以通过 spark 变量访问)。 如果设置了其他连接参数,例如通过使用 DatabricksSession.builder.clusterId(...).getOrCreate()DatabricksSession.builder.serverless().getOrCreate(),则会创建一个新会话。