共用方式為

在本地开发环境中开发 Lakeflow 声明性管道代码

可以在首选集成开发环境(IDE)中创作 Python 管道源代码。

无法在 IDE 中编写的 Lakeflow 声明性管道代码上验证或运行更新。 必须将源代码文件部署回 Azure Databricks 工作区,并将其配置为 Lakeflow 声明性管道的一部分。

本文概述了对本地 IDE 开发的支持。 为了进行更多的交互式开发和测试,Databricks 建议使用笔记本。 请参阅 在 Lakeflow 声明性管道中使用笔记本开发和调试 ETL 管道

配置用于管道开发的本地 IDE

Databricks 提供了一个 Python 模块,用于通过 PyPI 分发的本地开发。 有关安装和使用说明,请参阅 Lakeflow 声明性管道的 Python 存根

本模块包含 Lakeflow 声明性管道 Python 接口的接口和文档字符串引用,在 IDE 中编写代码时提供语法检查、自动完成和数据类型检查。

此模块包含接口,但没有功能实现。 不能使用此库在本地创建或运行 Lakeflow 声明性管道。

可以使用 Databricks 资产捆绑包将源代码和配置打包并部署到目标工作区,并触发以这种方式配置的管道上运行更新。 请参阅 将 Lakeflow 声明性管道转换为 Databricks 资产捆绑项目

Visual Studio Code 的 Databricks 扩展具有使用 Databricks 资产捆绑包处理管道的其他功能。 请参阅捆绑包资源浏览器

将管道代码从 IDE 同步到工作区

下表汇总了在本地 IDE 和 Azure Databricks 工作区之间同步管道源代码的选项:

工具或模式 详细信息
Databricks 资产捆绑包 使用 Databricks 资产捆绑包来部署管道资产,其复杂性可以从单个源代码文件扩展到多个管道、作业和源代码文件的配置。 请参阅 将 Lakeflow 声明性管道转换为 Databricks 资产捆绑项目
适用于 Visual Studio Code 的 Databricks 扩展 Azure Databricks 提供与 Visual Studio Code 的集成,其中包括在本地 IDE 和工作区文件之间轻松同步。 此扩展还提供用于使用 Databricks 资产捆绑包部署管道资产的工具。 请参阅什么是适用于 Visual Studio Code 的 Databricks 扩展?
工作区文件 可以使用 Databricks 工作区文件将管道源代码上传到 Databricks 工作区,然后将该代码导入管道。 请参阅什么是工作区文件?
Git 文件夹 Git 文件夹允许在本地环境和 Azure Databricks 工作区之间使用 Git 存储库作为中介同步代码。 请参阅 什么是 Databricks Git 文件夹