可以在首选集成开发环境(IDE)中创作Python管道源代码。
不能在 IDE 中编写的管道代码上验证或运行更新。 必须将源代码文件部署回Azure Databricks工作区,并将其配置为管道的一部分。
本文概述了对本地 IDE 开发的支持。 为了进行更多的交互式开发和测试,Databricks 建议使用 Lakeflow 管道编辑器。 请参阅 使用 Lakeflow 管道编辑器开发和调试 ETL 管道。
配置用于管道开发的本地 IDE
Databricks 提供了一个Python模块,用于通过 PyPI 分发的本地开发。 有关安装和使用说明,请参阅 DLT 的Python存根。
此模块具有管道Python接口的接口和文档字符串引用,在 IDE 中编写代码时提供语法检查、自动完成和数据类型检查。
此模块包含接口,但没有功能实现。 不能使用此库在本地创建或运行管道。
可以使用声明性自动化捆绑包将源代码和配置打包并部署到目标工作区,并触发以这种方式配置的管道上运行更新。 请参阅 将管道转换为捆绑项目。
用于 Visual Studio Code 的 Databricks 扩展具有使用声明性自动化包处理数据管道的附加功能。 请参阅捆绑包资源资源管理器。
将管道代码从 IDE 同步到工作区
下表汇总了在本地 IDE 与Azure Databricks工作区之间同步管道源代码的选项:
| 工具或模式 | 详细信息 |
|---|---|
| 声明性自动化捆绑包 | 使用声明性自动化捆绑包来部署管道资产,其复杂性范围包括从单个源代码文件到多个管道、作业和源代码文件的配置。 请参阅 将管道转换为捆绑项目。 |
| 用于Visual Studio Code的 Databricks 扩展 | Azure Databricks 提供与 Visual Studio Code 的无缝集成,支持本地 IDE 与工作区文件之间的轻松同步。 此扩展还提供用于使用声明性自动化捆绑包部署管道资产的工具。 请参阅 什么是 Databricks 的 Visual Studio Code 扩展?。 |
| 工作区文件 | 可以使用 Databricks 工作区文件将管道源代码上传到 Databricks 工作区,然后将该代码导入管道。 请参阅什么是工作区文件?。 |
| Git 文件夹 | Git 文件夹允许在本地环境和Azure Databricks工作区之间使用 Git 存储库作为中介同步代码。 请参阅 Azure Databricks Git 文件夹。 |