Databricks 笔记本支持适用于 Python 的 Databricks Connect
注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
使用 Databricks Connect 可从本地开发环境连接到 Databricks 计算。 然后,你可以直接从 IDE 开发、调试和测试代码,然后再将其作为 Databricks 笔记本或作业的一部分执行。 请参阅什么是 Databricks Connect?。
有关将 Databricks Connect 与 Jupyter Notebook 配合使用的信息,请参阅将经典 Jupyter Notebook 与适用于 Python 的 Databricks Connect 配合使用。
限制
为了从本地开发过渡到 Databricks 无缝部署,所有 Databricks Connect API 可在 Databricks 笔记本中使用。 这样就可以在 Databricks 笔记本中运行代码,而无需对代码进行任何更改。 但是,在本地开发环境中与在 Databricks 笔记本和作业中使用适用于 Python Databricks Connect 之间存在一些差异:
- 在 IDE 中本地开发时,
spark = DatabricksSession.builder.getOrCreate()
获取所提供配置的现有 Spark 会话(如果存在),或者创建一个新会话(如果不存在)。 连接参数,例如host
、token
和cluster_id
是从源代码、环境变量或.databrickscfg
配置文件填充的。 - 在 Databricks 笔记本中进行开发时,
spark = DatabricksSession.builder.getOrCreate()
在不使用任何其他配置的情况下,返回默认的 Spark 会话(也可以通过spark
变量访问)。 如果设置了其他连接参数,例如通过使用DatabricksSession.builder.clusterId(...).getOrCreate()
或DatabricksSession.builder.serverless().getOrCreate()
,则会创建一个新会话。