配置管道

本文介绍使用工作区 UI 的管道的基本配置。

Databricks 建议使用无服务器模式开发新的管道。有关无服务器管道的配置说明，请参阅 “配置无服务器管道”。

本文中的配置说明使用的是 Unity Catalog。有关使用旧 Hive 元存储配置管道的说明，请参阅将 Lakeflow Spark 声明性管道与旧 Hive 元存储配合使用。

本文讨论管道当前默认发布模式的功能。在 2025 年 2 月 5 日之前创建的管道可能使用旧版发布模式和 LIVE 虚拟架构。请参阅 LIVE 架构（旧版）。

注释

该 UI 有一个以 JSON 格式显示和编辑设置的选项。可以使用 UI 或 JSON 规范配置大多数设置。某些高级选项仅在使用 JSON 配置时才可用。

将管道部署到新环境或使用 CLI 或 REST API 时，JSON 配置文件也很有用。

有关管道 JSON 配置设置的完整参考，请参阅管道配置。

配置新管道

若要配置新管道，请执行以下操作：

在边栏顶部，单击“新建”，然后选择“ETL 管道”。
在顶部，为管道命名一个唯一的名称。
在名称下，可以看到已为你选择的默认目录和架构。更改这些选项，为管道提供不同的默认值。

默认目录和默认架构是在未在代码中使用目录或架构限定数据集时从中读取或写入数据集的位置。有关详细信息，请参阅 Azure Databricks 中的数据库对象。
选择首选选项以创建管道：
- 从 SQL 中的示例代码开始 ，以创建新的管道和文件夹结构，包括 SQL 中的示例代码。
- 从 Python 中的示例代码开始 ，以创建新的管道和文件夹结构，包括 Python 中的示例代码。
- 首先，使用单个转换 创建新的管道和文件夹结构，并创建一个新的空白代码文件。
- 添加现有资产 以创建可与工作区中的现有代码文件关联的管道。
- 创建源代码管理项目 以使用新的 Databricks 资产捆绑包项目创建管道，或将管道添加到现有捆绑包。
可以在 ETL 管道中同时包含 SQL 和 Python 源代码文件。创建新管道并选择示例代码的语言时，该语言仅适用于默认情况下包含在管道中的示例代码。
选择后，会重定向到新创建的管道。

ETL 管道是使用以下默认设置创建的：
- Unity 目录
- 当前通道
- 无服务器计算
- 开发模式关闭。此设置仅影响管道的计划运行。从编辑器运行管道始终默认为使用开发模式。
此配置适用于许多用例，包括开发和测试，并且非常适合按计划运行的生产工作负载。有关调度管道的详细信息，请参阅作业的管道任务。

可以从管道工具栏调整这些设置。

或者，可以从工作区浏览器创建 ETL 管道：

在左侧面板中单击 “工作区 ”。
选择任何文件夹，包括 Git 文件夹。
单击右上角的“ 创建 ”，然后单击 “ETL 管道”。

您还可以从作业和管道页面创建 ETL 管道：

在工作区中，单击，然后在边栏中选择作业和管道。
在 “新建”下，单击 “ETL 管道”。

计算配置选项

Databricks 建议始终使用“增强型自动缩放”。其他计算配置的默认值适用于许多管道。

无服务器管道没有计算配置选项。有关无服务器管道的配置说明，请参阅 “配置无服务器管道”。

使用以下设置自定义计算配置：

工作区管理员可以配置“群集策略”。计算策略允许管理员控制用户可使用的计算选项。请参阅 “选择计算策略”。
可以选择配置“群集模式”，以“固定大小”或“旧版自动缩放”运行。请参阅使用自动缩放优化 Lakeflow Spark 声明性管道的群集利用率。
对于已启用自动缩放的工作负载，设置“最小工作节点数”和“最大工作节点数”以设置缩放行为的限制。请参阅管道的经典计算配置。
可以选择关闭 Photon 加速。请参阅什么是 Photon？。
使用 群集标记 来帮助监视与管道相关的成本。请参阅 “配置计算标记”。
配置实例类型以指定用于运行管道的虚拟机类型。请参阅 “选择实例类型”以运行管道。
- 为管道中配置的工作负载选择优化后的“工作节点类型”。
- 可以选择一个与工作节点类型不同的驱动程序类型。这对于在工作节点类型较大且驱动程序计算利用率较低的管道中降低成本，或者对于选择更大的驱动程序类型以避免在有许多小工作节点的工作负载中出现内存不足问题很有用。

设置运行方式用户

运行方式用户允许更改管道用于运行的标识，以及它创建或更新的表的所有权。这在创建管道的原始用户已被停用的情况下非常有用，例如，如果他们离开了公司。在这些情况下，管道可以停止工作，而发布的表可能会对其他人无法访问。通过更新管道以其他标识（例如服务主体）运行并重新分配已发布表的所有权，可以还原访问权限并确保管道继续正常运行。将管道作为服务主体运行被视为最佳做法，因为它们与单个用户无关，因此对于自动化工作负荷而言，它们更安全、更稳定且可靠。

所需的权限

对于进行更改的用户：

对管道CAN_MANAGE 权限
CAN_USE 服务主体的角色（如果将运行方式设置为服务主体）

对于运行方式用户或服务主体：

工作区访问：
- 工作区访问权限 以在工作区中作
- 可以对 管道使用的群集策略使用权限
- 工作区中的计算创建权限
源代码访问：
- 可以读取 管道源代码中包含的所有笔记本的权限
- 如果管道使用工作区文件，则可以读取工作区文件的权限
Unity 目录权限 （对于使用 Unity 目录的管道）：
- 目标目录上的 USE CATALOG
- USE SCHEMA 和 CREATE TABLE 目标架构
- MODIFY 对管道更新的现有表的权限
- CREATE SCHEMA 如果管道创建新架构，则为权限
旧 Hive 元存储权限 （对于使用 Hive 元存储的管道）：
- SELECT 目标 MODIFY 数据库和表的权限
其他云存储访问 （如果适用）：
- 从源存储位置读取的权限
- 写入目标存储位置的权限

如何设置运行方式用户

可以通过管道监视页或管道编辑器中的管道设置来设置 run-as 用户。若要从管道监视页面更改用户，请执行以下操作：

单击 “作业和管道 ”以打开管道列表，然后选择要编辑的管道的名称。
在管道监控页面，点击 “设置”。
在“管道设置”边栏中，单击“铅笔”图标。在“运行方式”旁边的编辑。
在编辑小组件中，选择以下选项之一：
- 你自己的用户帐户
- 具有 CAN_USE 权限的服务主体
单击“保存”以应用更改。

成功更新运行方式用户时：

管道标识将更改，以对所有将来运行使用新的用户或服务主体
在 Unity 目录管道中，管道发布的表的所有者将更新为匹配新的运行方式标识
将来的管道更新将使用新运行方式标识的权限和凭据
使用新标识自动重启连续管道。触发的管道不会自动重启，运行方式更改可能会中断活动更新

注释

如果运行方式更新失败，将收到一条错误消息，说明失败的原因。常见问题包括对服务主体的权限不足。

其他配置注意事项

以下配置选项也可用于管道：

使用高级产品版本可以访问所有 Lakeflow Spark 声明性管道功能。可以选择使用专业版或核心版产品版本运行管道。请参阅 “选择产品版本”。
在生产环境中运行管道时，可以选择使用连续管道模式。请参阅触发与连续管道模式。
如果未为 Unity 目录配置工作区，或者工作负荷需要使用旧版 Hive 元存储，请参阅将 Lakeflow Spark 声明性管道与旧版 Hive 元存储配合使用。
根据成功或失败条件为电子邮件更新添加“通知”。请参阅为管道事件添加电子邮件通知。
使用“配置”字段设置管道的键值对。这些配置有两个用途：
- 设置可在源代码中引用的任意参数。请参阅在管道中使用参数。
- 配置管道设置和 Spark 配置。请参阅管道属性参考。
- 配置标记。标记是管道的键值对，在工作流列表中可见。管道标记与计费无关。
使用预览频道来测试你的管道，以应对挂起的 Lakeflow Spark 声明性管道运行时的更改，并试用新功能。

选择产品版本

选择具有管道要求的最佳功能的 Lakeflow Spark 声明性管道产品版本。可以使用以下产品版本：

Core，用于运行流式处理引入工作负载。请选择Core版本，如果您的管道不需要高级功能，例如变更数据捕获（CDC）或 Lakeflow Spark 声明性管道期望。
Pro，用于运行流式处理引入和 CDC 工作负载。 Pro 产品版本支持所有 Core 功能，此外还支持需要根据源数据的更改更新表的工作负载。
Advanced，用于运行流式处理引入工作负载、CDC 工作负载，以及需要“期望”功能的工作负载。 Advanced 产品版本支持 Core 版本和 Pro 版本的功能，并包含 Lakeflow Spark 声明性管道预期的数据质量约束。

在创建或编辑管道时可以选择产品版本。可为每个管道选择不同的版本。请参阅 Lakeflow Spark 声明性管道产品页。

注意：如果管道包含所选产品版本不支持的功能（例如期望），你将收到说明出错原因的错误消息。然后，可以编辑该管道以选择适当的版本。

配置源代码

可以使用 Lakeflow 管道编辑器中的资产浏览器来配置定义管道的源代码。管道源代码在存储在工作区文件中的 SQL 或 Python 脚本中定义。创建或编辑管道时，可以添加一个或多个文件。默认情况下，管道源代码位于 transformations 管道根文件夹中的文件夹。

由于 Lakeflow Spark 声明性管道自动分析数据集依赖项以构造管道的处理图，因此你可以按任意顺序添加源代码资产。

有关使用 Lakeflow 管道编辑器的更多详细信息，请参阅使用 Lakeflow 管道编辑器开发和调试 ETL 管道。

管理使用 Python 的管道的外部依赖项

管道支持在管道中使用外部依赖项，例如 Python 包和库。若要了解有关使用依赖项的选项和建议，请参阅管理管道的 Python 依赖项。

使用存储在 Azure Databricks 工作区中的 Python 模块

除了在管道源代码文件中实现 Python 代码外，还可以使用 Databricks Git 文件夹或工作区文件将代码存储为 Python 模块。想要在多个管道或同一管道中的笔记本中使用通用功能时，将代码存储为 Python 模块特别有用。若要了解如何将 Python 模块用于管道，请参阅从 Git 文件夹或工作区文件导入 Python 模块。

Last updated on 2026-01-26

共用方式為