将 Visual Studio Code 与适用于 Python 的 Databricks Connect 配合使用

注意

本文介绍适用于 Databricks Runtime 13.0 及更高版本的 Databricks Connect。

本文介绍如何将适用于 Python 的 Databricks Connect 与 Visual Studio Code 配合使用。 Databricks Connect 可让你将常用 IDE、笔记本服务器和其他自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Partner Connect?。 有关本文的 Scala 版本,请参阅将 Visual Studio Code 与适用于 Scala 的 Databricks Connect 配合使用

注意

在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端

提示

Visual Studio Code 的 Databricks 扩展本身已经支持适用于 Databricks Runtime 13.0 及更高版本的 Databricks Connect。 请参阅使用 Databricks Connect 为 Visual Studio Code 的 Databricks 扩展调试代码

若要将 Databricks Connect 与 Visual Studio Code 和 Python 配合使用,请按以下说明操作。

  1. 启动 Visual Studio Code。

  2. 打开包含 Python 虚拟环境的文件夹(“文件”>“打开文件夹”)。

  3. 在 Visual Studio Code 终端(“视图”>“终端”)中,激活虚拟环境。

  4. 将当前的 Python 解释器设置为从虚拟环境引用的解释器:

    1. 在命令面板(“视图”>“命令面板”)上,键入 Python: Select Interpreter 并按 Enter。
    2. 选择从虚拟环境引用的 Python 解释器的路径。
  5. 将包含示例代码或你自己的代码的 Python 代码 (.py) 文件添加到文件夹中。 如果使用你自己的代码,至少必须按照示例代码中所示初始化 DatabricksSession

  6. 若要运行代码,请单击主菜单上的“运行>运行但不调试”。 所有 Python 代码都在本地运行,而涉及 DataFrame 操作的 PySpark 代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。

  7. 若要调试代码:

    1. 打开 Python 代码文件后,在希望代码在运行过程中暂停的位置设置任何断点。
    2. 在边栏上单击“运行和调试”图标,或在主菜单中单击“视图”>“运行”。
    3. 在“运行和调试”视图中,单击“运行和调试”按钮。
    4. 按照屏幕上的说明开始运行和调试代码。

    所有 Python 代码均在本地调试,而所有 PySpark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。

有关更具体的运行和调试说明,请参阅配置和运行调试器VS Code 中的 Python 调试