Databricks Connect 的群集配置
注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文列出了 Databricks Connect 连接到所需的 Azure Databricks 计算的配置设置。 除非另有说明,否则此信息对 Databricks Connect 的 Python 和 Scala 版本均适用。
使用 Databricks Connect,可将热门 IDE(例如 Visual Studio Code、PyCharm、RStudio Desktop、IntelliJ IDEA、笔记本服务器和其他自定义应用程序)连接到 Azure Databricks 群集。 请参阅什么是 Databricks Connect?。
要求
- 已启用 Unity Catalog 的 Azure Databricks 帐户和工作区。 请参阅设置和管理 Unity Catalog 和为 Unity Catalog 启用工作区。
- 已安装一个运行 Databricks Runtime 13.3 LTS 或更高版本的 Azure Databricks 群集。
- 群集的 Databricks Runtime 版本必须大于或等于 Databricks Connect 包版本。 Databricks 建议使用与 Databricks Runtime 版本相匹配的 Databricks Connect 的最新包。 如果要使用 Databricks Runtime 的更高版本中提供的功能,则必须升级 Databricks Connect 包。 请参阅 Databricks Connect 发行说明,了解可用 Databricks Connect 版本列表。 有关 Databricks Runtime 版本发行说明,请参阅 Databricks Runtime 发行说明版本和兼容性。
- 群集必须使用“已分配”或“共享”群集访问模式。 请参阅访问模式。
编程验证
在 Databricks Connect 14.3 及更高版本中,DatabricksSession.builder
引入了 validateSession
,它运行一系列验证,以确保满足上述要求。
在用于 Python 的 Databricks Connect 中,databricks-connect
二进制文件具有执行相同验证集的 test
子命令。
此命令应在终端上运行,其中具有包含 Databricks Connect 的活动 Python 环境,并配置了一组默认凭据。 若要配置这些凭据,请参阅配置连接属性。
databricks-connect test
如果未满足任何要求,该命令将失败,并显示非零退出代码和相应的消息。
禁用 Databricks Connect
可以在任何给定群集上禁用 Databricks Connect(和基础 Spark Connect)服务。
若要禁用 Databricks Connect 服务,请在群集上设置以下 Spark 配置。
spark.databricks.service.server.enabled false
后续步骤
- 对于 Python,请参阅安装适用于 Python 的 Databricks Connect。
- 有关 R,请参阅《适用于 R 的 Databricks Connect》。
- 对于 Scala,请参阅安装适用于 Scala 的 Databricks Connect。