将 JupyterLab 与适用于 Python 的 Databricks Connect 配合使用

注意

本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。

本文介绍如何将适用于 Python 的 Databricks Connect 与 JupyterLab 配合使用。 Databricks Connect 可让你将常用笔记本服务器、IDE 和其他自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Connect?

注意

在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端

若要将 Databricks Connect 与 JupyterLab 和 Python 配合使用,请按以下说明操作。

  1. 若要安装 JupyterLab,请在激活了 Python 虚拟环境的情况下,从终端或命令提示符运行以下命令:

    pip3 install jupyterlab
    
  2. 若要在 Web 浏览器中启动 JupyterLab,请从已激活的 Python 虚拟环境运行以下命令:

    jupyter lab
    

    如果 JupyterLab 未显示在 Web 浏览器中,请从虚拟环境中复制以 localhost127.0.0.1 开头的 URL,并将其输入到 Web 浏览器的地址栏中。

  3. 创建新笔记本:在 JupyterLab 中,单击主菜单中的“文件”>“新建”>“笔记本”,选择“Python 3 (ipykernel)”,然后单击“选择”

  4. 在笔记本的第一个单元格中,输入示例代码或你自己的代码。 如果使用你自己的代码,至少必须按照示例代码中所示初始化 DatabricksSession

  5. 若要运行笔记本,请单击“运行”>“运行所有单元格”。 所有代码都在本地运行,而涉及 DataFrame 操作的代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。

  6. 若要调试笔记本,请单击笔记本工具栏中“Python 3 (ipykernel)”旁边的虫子(“启用调试器”)图标。 设置一个或多个断点,然后单击“运行”>“运行所有单元格”。 所有代码均在本地调试,而所有 Spark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。

  7. 若要关闭 JupyterLab,请单击“文件”>“关闭”。 如果 JupyterLab 进程仍在终端或命令提示符中运行,请按 Ctrl + c 停止此进程,然后输入 y 以确认。

有关更具体的调试说明,请参阅调试器