将 Eclipse 与 PyDev 和适用于 Python 的 Databricks Connect 配合使用

注意

本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。

本文介绍如何将适用于 Scala 的 Databricks Connect 和 EclipsePyDev 配合使用。 Databricks Connect 可让你将常用 IDE、笔记本服务器和其他自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Partner Connect?

注意

在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端

若要将 Databricks Connect 与 Eclipse 和 PyDev 配合使用,请按以下说明操作。

  1. 启动 Eclipse。
  2. 创建项目:单击“文件”>“新建”>“项目”>“PyDev”>“PyDev 项目”,然后单击“下一步”。
  3. 指定一个项目名称
  4. 对于“项目内容”,请指定 Python 虚拟环境的路径。
  5. 单击“请在继续之前配置解释器”。
  6. 单击“手动配置”。
  7. 单击“新建”>“浏览 python/pypy exe”。
  8. 浏览并选择从虚拟环境引用的 Python 解释器的完整路径,然后单击“打开”。
  9. 在“选择解释器”对话框中,单击“确定”。
  10. 在“需要选择”对话框中,单击“确定”。
  11. 在“首选项”对话框中,单击“应用并关闭”。
  12. 在“PyDev 项目”对话框中,单击“完成”。
  13. 单击“打开透视图”。
  14. 将包含示例代码或你自己的代码的 Python 代码 (.py) 文件添加到项目中。 如果使用你自己的代码,至少必须按照示例代码中所示初始化 DatabricksSession
  15. 打开 Python 代码文件后,在希望代码在运行过程中暂停的位置设置任何断点。
  16. 若要运行代码,请单击“运行>运行”。 所有 Python 代码都在本地运行,而涉及 DataFrame 操作的 PySpark 代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。
  17. 若要调试代码,请单击“运行>调试”。 所有 Python 代码均在本地调试,而所有 PySpark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。

有关更具体的运行和调试说明,请参阅运行程序