注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文介绍如何安装或更新适用于 Python 的 Databricks Connect。 请参阅什么是 Databricks Partner Connect?。
要求
安装 Databricks Connect 之前,请确保工作区和本地环境满足要求。 请参阅 Databricks Connect 使用情况要求。
激活 Python 虚拟环境
Databricks 强烈建议为与 Databricks Connect 配合使用的每个 Python 版本激活 Python 虚拟环境。 Python 虚拟环境有助于确保将正确版本的 Python 和 Databricks Connect 一起使用。 有关这些工具及其激活方式的详细信息,请参阅venv或Poetry。
安装 Databricks Connect 客户端
本部分介绍如何使用 venv 或诗歌安装 Databricks Connect 客户端。
注意
如果已安装用于 Visual Studio Code 的 Databricks 扩展,则可以使用扩展安装 Databricks Connect for Databricks Runtime 13.3 LTS 及更高版本。 请参阅使用 Databricks Connect 调试适用于 Visual Studio Code 的 Databricks 扩展代码。
使用 vnev 安装 Databricks Connect 客户端
- 激活虚拟环境后,运行 - uninstall命令卸载 PySpark(如果已安装)。 这是必需的,因为- databricks-connect包与 PySpark 冲突。 有关详细信息,请参阅 PySpark 安装存在冲突。 若要检查是否已安装 PySpark,请运行- show命令。- # Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
- 在虚拟环境仍处于激活状态的情况下,运行 - install命令安装 Databricks Connect 客户端。 使用- --upgrade选项将任何现有客户端安装升级到指定的版本。- pip3 install --upgrade "databricks-connect==16.4.*" # Or X.Y.* to match your cluster version.- 注意 - Databricks 建议追加“.*”符号来指定 - databricks-connect==X.Y.*而不是- databricks-connect=X.Y,以确保安装最新的包。 虽然并不要求如此,但这样有助于确保为该群集使用最新的受支持功能。
使用 Poetry 安装 Databricks Connect 客户端
- 激活虚拟环境后,运行 - remove命令卸载 PySpark(如果已安装)。 这是必需的,因为- databricks-connect包与 PySpark 冲突。 有关详细信息,请参阅 PySpark 安装存在冲突。 若要检查是否已安装 PySpark,请运行- show命令。- # Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
- 在虚拟环境仍处于激活状态的情况下,运行 - add命令安装 Databricks Connect 客户端。- poetry add databricks-connect@~16.4 # Or X.Y to match your cluster version.- 注意 - Databricks 建议使用“at-tilde”表示法来指定 - databricks-connect@~16.4而不是- databricks-connect==16.4,以确保安装最新的包。 虽然并不要求如此,但这样有助于确保为该群集使用最新的受支持功能。