注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文介绍如何安装或更新适用于 Python 的 Databricks Connect。 请参阅什么是 Databricks Partner Connect?。
要求
安装 Databricks Connect 之前,请确保工作区和本地环境满足要求。 请参阅 Databricks Connect 使用情况要求。
激活 Python 虚拟环境
Databricks 强烈建议为与 Databricks Connect 配合使用的每个 Python 版本激活 Python 虚拟环境。 Python 虚拟环境有助于确保将正确版本的 Python 和 Databricks Connect 一起使用。 有关这些工具及其激活方式的详细信息,请参阅venv或Poetry。
安装 Databricks Connect 客户端
本部分介绍了如何使用venv或Poetry安装 Databricks Connect 客户端。
注意
如果已安装用于 Visual Studio Code 的 Databricks 扩展,则可以使用扩展安装 Databricks Connect for Databricks Runtime 13.3 LTS 及更高版本。 请参阅使用 Databricks Connect 调试适用于 Visual Studio Code 的 Databricks 扩展代码。
使用 vnev 安装 Databricks Connect 客户端
激活虚拟环境后,运行
uninstall
命令卸载 PySpark(如果已安装)。 这是必需的,因为databricks-connect
包与 PySpark 冲突。 有关详细信息,请参阅 PySpark 安装存在冲突。 若要检查是否已安装 PySpark,请运行show
命令。# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
在虚拟环境仍处于激活状态的情况下,运行
install
命令安装 Databricks Connect 客户端。 使用--upgrade
选项将任何现有客户端安装升级到指定的版本。pip3 install --upgrade "databricks-connect==16.4.*" # Or X.Y.* to match your cluster version.
注意
Databricks 建议追加“.*”符号来指定
databricks-connect==X.Y.*
而不是databricks-connect=X.Y
,以确保安装最新的包。 虽然并不要求如此,但这样有助于确保为该群集使用最新的受支持功能。
使用 Poetry 安装 Databricks Connect 客户端
激活虚拟环境后,运行
remove
命令卸载 PySpark(如果已安装)。 这是必需的,因为databricks-connect
包与 PySpark 冲突。 有关详细信息,请参阅 PySpark 安装存在冲突。 若要检查是否已安装 PySpark,请运行show
命令。# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
在虚拟环境仍处于激活状态的情况下,运行
add
命令安装 Databricks Connect 客户端。poetry add databricks-connect@~16.4 # Or X.Y to match your cluster version.
注意
Databricks 建议使用“at-tilde”表示法来指定
databricks-connect@~16.4
而不是databricks-connect==16.4
,以确保安装最新的包。 虽然并不要求如此,但这样有助于确保为该群集使用最新的受支持功能。