将 Visual Studio Code 与适用于 Python 的 Databricks Connect 配合使用
注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文介绍如何将适用于 Python 的 Databricks Connect 与 Visual Studio Code 配合使用。 Databricks Connect 可让你将常用 IDE、笔记本服务器和其他自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Partner Connect?。 有关本文的 Scala 版本,请参阅将 Visual Studio Code 与适用于 Scala 的 Databricks Connect 配合使用。
注意
在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端。
提示
Visual Studio Code 的 Databricks 扩展本身已经支持适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。 请参阅使用 Databricks Connect 为 Visual Studio Code 的 Databricks 扩展调试代码。
若要将 Databricks Connect 与 Visual Studio Code 和 Python 配合使用,请按以下说明操作。
启动 Visual Studio Code。
打开包含 Python 虚拟环境的文件夹(“文件”>“打开文件夹”)。
在 Visual Studio Code 终端(“视图”>“终端”)中,激活虚拟环境。
将当前的 Python 解释器设置为从虚拟环境引用的解释器:
- 在命令面板(“视图”>“命令面板”)上,键入
Python: Select Interpreter
并按 Enter。 - 选择从虚拟环境引用的 Python 解释器的路径。
- 在命令面板(“视图”>“命令面板”)上,键入
将包含示例代码或你自己的代码的 Python 代码 (
.py
) 文件添加到文件夹中。 如果使用你自己的代码,至少必须按照示例代码中所示初始化DatabricksSession
。若要运行代码,请单击主菜单上的“运行>运行但不调试”。 所有 Python 代码都在本地运行,而涉及 DataFrame 操作的 PySpark 代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。
若要调试代码:
- 打开 Python 代码文件后,在希望代码在运行过程中暂停的位置设置任何断点。
- 在边栏上单击“运行和调试”图标,或在主菜单中单击“视图”>“运行”。
- 在“运行和调试”视图中,单击“运行和调试”按钮。
- 按照屏幕上的说明开始运行和调试代码。
所有 Python 代码均在本地调试,而所有 PySpark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。
有关更具体的运行和调试说明,请参阅配置和运行调试器及 VS Code 中的 Python 调试。