将 PyCharm 与适用于 Python 的 Databricks Connect 配合使用
注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文介绍如何将适用于 Python 的 Databricks Connect 与 PyCharm 配合使用。 Databricks Connect 可让你将常用 IDE、笔记本服务器和其他自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Partner Connect?。
注意
在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端。
IntelliJ IDEA Ultimate 还提供了插件支持来让用户将 PyCharm 与 Python 配合使用。 有关详细信息,请参阅 IntelliJ IDEA Ultimate 的 Python 插件。
若要将 Databricks Connect 与 PyCharm 和 Python 配合使用,请按照 venv 或 Poetry 的说明进行操作。 本文已使用 PyCharm Community Edition 2023.3.5 进行测试。 如果使用不同版本的 PyCharm,则以下说明可能有所不同。
将 PyCharm 与 venv 和 Databricks Connect for Python 配合使用
启动 PyCharm。
创建项目:单击“文件”>“新建项目”。
在“新建项目”对话框中,单击“纯 Python”。
对于“位置”,请单击文件夹图标,然后选择在安装 Databricks Connect for Python 中创建的现有
venv
虚拟环境的路径。对于“解释器类型”,请单击“自定义环境”。
对于“环境”,请选择“选择现有环境”。
对于“类型”,请选择“Python”。
对于“路径”,请使用文件夹图标或下拉列表选择现有
venv
虚拟环境中 Python 解释器的路径。提示
用于
venv
虚拟环境的 Python 解释器通常安装在</path-to-venv>/bin
中。 有关详细信息,请参阅 venv。单击“确定”。
单击 “创建” 。
将包含示例代码或你自己的代码的 Python 代码 (
.py
) 文件添加到项目中。 如果使用你自己的代码,至少必须按照示例代码中所示初始化DatabricksSession
。打开 Python 代码文件后,在希望代码在运行过程中暂停的位置设置任何断点。
若要运行代码,请单击“运行>运行”。 所有 Python 代码都在本地运行,而涉及 DataFrame 操作的 PySpark 代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。
若要调试代码,请单击“运行>调试”。 所有 Python 代码均在本地调试,而所有 PySpark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。
按照屏幕上的说明开始运行或调试代码。
有关更具体的运行和调试说明,请参阅在未事先进行配置的情况下运行和调试。
将 PyCharm 与 Poetry 和 Databricks Connect for Python 配合使用
启动 PyCharm。
创建项目:单击“文件”>“新建项目”。
-
- 在“新建项目”对话框中,单击“纯 Python”。
对于“位置”,请单击文件夹图标,然后选择在安装 Databricks Connect for Python 中创建的现有 Poetry 虚拟环境的路径。
对于“解释器类型”,请单击“自定义环境”。
对于“环境”,请选择“选择现有环境”。
对于“类型”,请选择“Python”。
对于“路径”,请使用文件夹图标或下拉列表选择现有 Poetry 虚拟环境中 Python 解释器的路径。
单击“确定”。
单击 “创建” 。
将包含示例代码或你自己的代码的 Python 代码 (
.py
) 文件添加到项目中。 如果使用你自己的代码,至少必须按照示例代码中所示初始化DatabricksSession
。打开 Python 代码文件后,在希望代码在运行过程中暂停的位置设置任何断点。
若要运行代码,请单击“运行>运行”。 所有 Python 代码都在本地运行,而涉及 DataFrame 操作的 PySpark 代码在远程 Azure Databricks 工作区中的群集上运行,运行响应发送回给本地调用方。
若要调试代码,请单击“运行>调试”。 所有 Python 代码均在本地调试,而所有 PySpark 代码则继续在远程 Azure Databricks 工作区中的群集上运行。 无法直接从客户端对核心 Spark 引擎代码进行调试。
按照屏幕上的说明开始运行或调试代码。
有关更具体的运行和调试说明,请参阅在未事先进行配置的情况下运行和调试。