将 PyCharm 与适用于 Python 的 Databricks Connect 配合使用

注意

本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。

本文介绍如何将适用于 Python 的 Databricks Connect 与 PyCharm 配合使用。 Databricks Connect 可让你将常用 IDE、笔记本服务器和其他自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Partner Connect?

注意

在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端

IntelliJ IDEA Ultimate 还提供了插件支持来让用户将 PyCharm 与 Python 配合使用。 有关详细信息,请参阅 IntelliJ IDEA Ultimate 的 Python 插件

若要将 Databricks Connect 与 PyCharm 和 Python 配合使用,请按照 venvPoetry 的说明进行操作。 本文已使用 PyCharm Community Edition 2023.3.5 进行测试。 如果使用不同版本的 PyCharm,则以下说明可能有所不同。

将 PyCharm 与 venv 和 Databricks Connect for Python 配合使用

  1. 启动 PyCharm。

  2. 创建项目:单击“文件”>“新建项目”。

  3. 在“新建项目”对话框中,单击“纯 Python”

  4. 对于“位置”,请单击文件夹图标,然后选择在安装 Databricks Connect for Python 中创建的现有 venv 虚拟环境的路径。

  5. 对于“解释器类型”,请单击“自定义环境”

  6. 对于“环境”,请选择“选择现有环境”。

  7. 对于“类型”,请选择“Python”

  8. 对于“路径”,请使用文件夹图标或下拉列表选择现有 venv 虚拟环境中 Python 解释器的路径

    提示

    用于 venv 虚拟环境的 Python 解释器通常安装在 </path-to-venv>/bin 中。 有关详细信息,请参阅 venv

  9. 单击“确定”。

  10. 单击 “创建”

  11. 将包含示例代码或你自己的代码的 Python 代码 (.py) 文件添加到项目中。 如果使用你自己的代码,至少必须按照示例代码中所示初始化 DatabricksSession

  12. 打开 Python 代码文件后,在希望代码在运行过程中暂停的位置设置任何断点。

  13. 若要运行代码,请单击“运行>运行”。 所有 Python 代码都在本地运行,而涉及 DataFrame 操作的 PySpark 代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。

  14. 若要调试代码,请单击“运行>调试”。 所有 Python 代码均在本地调试,而所有 PySpark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。

  15. 按照屏幕上的说明开始运行或调试代码。

有关更具体的运行和调试说明,请参阅在未事先进行配置的情况下运行调试

将 PyCharm 与 Poetry 和 Databricks Connect for Python 配合使用

  1. 启动 PyCharm。

  2. 创建项目:单击“文件”>“新建项目”。

    1. 在“新建项目”对话框中,单击“纯 Python”
  3. 对于“位置”,请单击文件夹图标,然后选择在安装 Databricks Connect for Python 中创建的现有 Poetry 虚拟环境的路径。

  4. 对于“解释器类型”,请单击“自定义环境”

  5. 对于“环境”,请选择“选择现有环境”。

  6. 对于“类型”,请选择“Python”

  7. 对于“路径”,请使用文件夹图标或下拉列表选择现有 Poetry 虚拟环境中 Python 解释器的路径

    提示

    请务必选择 Python 解释器的路径。 不要选择 Poetry 可执行文件的路径。

    有关 Python 解释器系统版本的安装位置的信息,请参阅如何将 Python 添加到路径

  8. 单击“确定”。

  9. 单击 “创建”

  10. 将包含示例代码或你自己的代码的 Python 代码 (.py) 文件添加到项目中。 如果使用你自己的代码,至少必须按照示例代码中所示初始化 DatabricksSession

  11. 打开 Python 代码文件后,在希望代码在运行过程中暂停的位置设置任何断点。

  12. 若要运行代码,请单击“运行>运行”。 所有 Python 代码都在本地运行,而涉及 DataFrame 操作的 PySpark 代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。

  13. 若要调试代码,请单击“运行>调试”。 所有 Python 代码均在本地调试,而所有 PySpark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。

  14. 按照屏幕上的说明开始运行或调试代码。

有关更具体的运行和调试说明,请参阅在未事先进行配置的情况下运行调试