Databricks Connect 的群集配置

注意

本文介绍适用于 Databricks Runtime 13.0 及更高版本的 Databricks Connect。

本文列出了 Databricks Connect 在连接到 Azure Databricks 群集之前,这些群集的配置要求和设置。 除非另有说明,否则此信息对 Databricks Connect 的 Python 和 Scala 版本均适用。

使用 Databricks Connect,可将热门 IDE(例如 Visual Studio Code、PyCharm、RStudio Desktop、IntelliJ IDEA、笔记本服务器和其他自定义应用程序)连接到 Azure Databricks 群集。 请参阅什么是 Databricks Connect?

要求

  • 你有一个启用了 Unity Catalog 的 Azure Databricks 工作区及其相应帐户。 请参阅设置和管理 Unity Catalog为 Unity Catalog 启用工作区

  • 对于 Python,已安装 Databricks Runtime 13.0 或更高版本的 Azure Databricks 群集。

  • 对于 R 或 Scala,已安装 Databricks Runtime 13.3 LTS 或更高版本的 Azure Databricks 群集。

    注意

    适用于 Databricks Runtime 13.2 及更低版本的 Databricks Connect 不支持 R 和 Scala。

  • 群集必须使用“已分配”或“共享”群集访问模式。 请参阅访问模式

  • 使用的 Databricks Connect 版本必须低于群集上运行的 Databricks Runtime 版本。

编程验证

在 Databricks Connect 14.3 及更高版本中,DatabricksSession.builder 引入了 validateSession,它运行一系列验证,以确保满足上述要求。

在用于 Python 的 Databricks Connect 中,databricks-connect 二进制文件具有执行相同验证集的 test 子命令。

此命令应在终端上运行,其中具有包含 Databricks Connect 的活动 Python 环境,并配置了一组默认凭据。 若要配置这些凭据,请参阅配置连接属性

databricks-connect test

如果未满足任何要求,该命令将失败,并显示非零退出代码和相应的消息。

禁用 Databricks Connect

可以在任何给定群集上禁用 Databricks Connect(和基础 Spark Connect)服务。

若要禁用 Databricks Connect 服务,请在群集上设置以下 Spark 配置

spark.databricks.service.server.enabled false

后续步骤