适用于 Python 的 Databricks Connect
注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文演示如何使用 Python 和 PyCharm 快速开始使用 Databricks Connect。
- 有关本文的 R 版本,请参阅适用于 R 的 Databricks Connect。
- 有关本文的 Scala 版本,请参阅适用于 Scala 的 Databricks Connect。
可以使用 Databricks Connect 将热门的 IDE(例如 PyCharm、笔记本服务器和其他自定义应用程序)连接到 Azure Databricks 群集。 请参阅什么是 Databricks Connect?。
教程
若要跳过此教程并使用其他 IDE,请参阅后续步骤。
要求
若要完成此教程,必须满足以下要求:
- 目标 Azure Databricks 工作区必须启用 Unity Catalog。
- 已安装 PyCharm。 本教程已使用 PyCharm Community Edition 2023.3.5 进行测试。 如果使用不同版本的 PyCharm,则以下说明可能有所不同。
- 你的计算满足适用于 Python 的 Databricks Connect 安装要求。
- 如果使用经典计算,则需要群集的 ID。 若要获取你的群集 ID,请在工作区中单击边栏上的“计算”,然后单击群集的名称。 在 Web 浏览器的地址栏中,复制 URL 中
clusters
和configuration
之间的字符串。
步骤 1:配置 Azure Databricks 身份验证
本教程使用 Azure Databricks 配置文件向 Azure Databricks 工作区进行身份验证。 若要使用其他身份验证类型,请参阅配置连接属性。
步骤 2:创建项目
- 启动 PyCharm。
- 在主菜单上,单击“文件”>“新建项目”。
- 在“新建项目”对话框中,单击“纯 Python”。
- 对于“位置”,单击文件夹图标,然后完成屏幕说明以指定新 Python 项目的路径。
- 让“创建 main.py 欢迎脚本”保持选中状态。
- 对于“解释器类型”,请单击“项目 venv”。
- 展开“Python 版本”,并使用文件夹图标或下拉列表从上述要求中指定 Python 解释器的路径。
- 单击 “创建” 。
步骤 3:添加 Databricks Connect 包
- 在 PyCharm 的主菜单上,单击“查看 > 工具窗口 > Python 包”。
- 在搜索框中输入
databricks-connect
。 - 在“PyPI 存储库”列表中,单击“databricks-connect”。
- 在结果窗格“的最新”下拉列表中,选择与群集的 Databricks Runtime 版本匹配的版本。 例如,如果群集已安装 Databricks Runtime 14.3,请选择 14.3.1。
- 单击“安装包”。
- 安装包后,可以关闭“Python 包”窗口。
步骤 4:添加代码
在“项目”工具窗口中,右键点击项目的根文件夹,然后点击“新建 > Python 文件”。
输入
main.py
并双击“Python 文件”。依据配置文件的名称,在文件中输入以下代码,然后保存文件。
如果步骤 1 中的配置文件已命名为
DEFAULT
,请在文件中输入以下代码,然后保存文件:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
如果步骤 1 中的配置文件没有命名为
DEFAULT
,请改为在文件中输入以下代码。 替换占位符<profile-name>
为步骤 1 中配置文件的名称,然后保存文件:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
步骤 5:运行代码
- 在远程 Azure Databricks 工作区中启动目标群集。
- 群集启动后,在主菜单上,单击“运行”>“运行 ‘main’”。
- 在“运行”工具窗口(“视图”>“工具窗口”>“运行”)的“运行”选项卡的“主”窗格中,
samples.nyctaxi.trips
的前 5 行会显示。
步骤 6:调试代码
- 群集仍在运行中,在前面的代码中,单击
df.show(5)
旁边的装订线以设置断点。 - 在主菜单上,单击“运行”>“调试‘main’”。
- 在“调试”工具窗口(“查看 > 工具窗口 > 调试”)中,在“调试程序”选项卡的“变量”窗格中展开 df 和 spark 变量节点可浏览有关代码的
df
和spark
变量的信息。 - 在“调试”工具窗口的侧栏中,单击绿色箭头(恢复程序)图标。
- 在“调试程序”选项卡的“控制台”窗格中,将显示
samples.nyctaxi.trips
的前 5 行。
后续步骤
若要了解有关 Databricks Connect 的详细信息,请参阅如下文章:
若要使用 Azure Databricks 个人访问令牌以外的 Azure Databricks 身份验证类型,请参阅配置连接属性。
若要使用其他 IDE、笔记本服务器和 Spark shell,请参阅以下内容:
若要查看更多简单的代码示例,请参阅《适用于 Python 的 Databricks Connect 代码示例》。
若要查看更复杂的代码示例,请参阅 GitHub 中的Databricks Connect 示例应用程序存储库,具体如下:
若要将 Databricks 实用工具与 Databricks Connect 搭配使用,请参阅 Databricks 实用工具搭配适用于 Python 的 Databricks Connect。
若要从适用于 Databricks Runtime 12.2 LTS 及更低版本的 Databricks Connect 迁移到适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect,请参阅迁移到适用于 Python 的 Databricks Connect。