将 JupyterLab 与适用于 Python 的 Databricks Connect 配合使用
注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文介绍如何将适用于 Python 的 Databricks Connect 与 JupyterLab 配合使用。 Databricks Connect 可让你将常用笔记本服务器、IDE 和其他自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Connect?。
注意
在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端。
若要将 Databricks Connect 与 JupyterLab 和 Python 配合使用,请按以下说明操作。
若要安装 JupyterLab,请在激活了 Python 虚拟环境的情况下,从终端或命令提示符运行以下命令:
pip3 install jupyterlab
若要在 Web 浏览器中启动 JupyterLab,请从已激活的 Python 虚拟环境运行以下命令:
jupyter lab
如果 JupyterLab 未显示在 Web 浏览器中,请从虚拟环境中复制以
localhost
或127.0.0.1
开头的 URL,并将其输入到 Web 浏览器的地址栏中。创建新笔记本:在 JupyterLab 中,单击主菜单中的“文件”>“新建”>“笔记本”,选择“Python 3 (ipykernel)”,然后单击“选择”。
在笔记本的第一个单元格中,输入示例代码或你自己的代码。 如果使用你自己的代码,至少必须按照示例代码中所示初始化
DatabricksSession
。若要运行笔记本,请单击“运行”>“运行所有单元格”。 所有代码都在本地运行,而涉及 DataFrame 操作的代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。
若要调试笔记本,请单击笔记本工具栏中“Python 3 (ipykernel)”旁边的虫子(“启用调试器”)图标。 设置一个或多个断点,然后单击“运行”>“运行所有单元格”。 所有代码均在本地调试,而所有 Spark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。
若要关闭 JupyterLab,请单击“文件”>“关闭”。 如果 JupyterLab 进程仍在终端或命令提示符中运行,请按
Ctrl + c
停止此进程,然后输入y
以确认。
有关更具体的调试说明,请参阅调试器。