共用方式為

安装适用于 Python 的 Databricks Connect

注意

本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。

本文介绍如何安装或更新适用于 Python 的 Databricks Connect。 请参阅什么是 Databricks Partner Connect?

要求

安装 Databricks Connect 之前,请确保工作区和本地环境满足要求。 请参阅 Databricks Connect 使用情况要求

激活 Python 虚拟环境

Databricks 强烈建议为与 Databricks Connect 配合使用的每个 Python 版本激活 Python 虚拟环境。 Python 虚拟环境有助于确保将正确版本的 Python 和 Databricks Connect 一起使用。 有关这些工具及其激活方式的详细信息,请参阅venvPoetry

安装 Databricks Connect 客户端

本部分介绍了如何使用venvPoetry安装 Databricks Connect 客户端。

注意

如果已安装用于 Visual Studio Code 的 Databricks 扩展,则可以使用扩展安装 Databricks Connect for Databricks Runtime 13.3 LTS 及更高版本。 请参阅使用 Databricks Connect 调试适用于 Visual Studio Code 的 Databricks 扩展代码

使用 vnev 安装 Databricks Connect 客户端

  1. 激活虚拟环境后,运行 uninstall 命令卸载 PySpark(如果已安装)。 这是必需的,因为 databricks-connect 包与 PySpark 冲突。 有关详细信息,请参阅 PySpark 安装存在冲突。 若要检查是否已安装 PySpark,请运行 show 命令。

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. 在虚拟环境仍处于激活状态的情况下,运行 install 命令安装 Databricks Connect 客户端。 使用 --upgrade 选项将任何现有客户端安装升级到指定的版本。

    pip3 install --upgrade "databricks-connect==16.4.*"  # Or X.Y.* to match your cluster version.
    

    注意

    Databricks 建议追加“.*”符号来指定 databricks-connect==X.Y.* 而不是 databricks-connect=X.Y,以确保安装最新的包。 虽然并不要求如此,但这样有助于确保为该群集使用最新的受支持功能。

使用 Poetry 安装 Databricks Connect 客户端

  1. 激活虚拟环境后,运行 remove 命令卸载 PySpark(如果已安装)。 这是必需的,因为 databricks-connect 包与 PySpark 冲突。 有关详细信息,请参阅 PySpark 安装存在冲突。 若要检查是否已安装 PySpark,请运行 show 命令。

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. 在虚拟环境仍处于激活状态的情况下,运行 add 命令安装 Databricks Connect 客户端。

    poetry add databricks-connect@~16.4  # Or X.Y to match your cluster version.
    

    注意

    Databricks 建议使用“at-tilde”表示法来指定 databricks-connect@~16.4 而不是 databricks-connect==16.4,以确保安装最新的包。 虽然并不要求如此,但这样有助于确保为该群集使用最新的受支持功能。