在管道中使用数据流

使用多个数据流生成复杂的管道时，逻辑流可能会对计时和成本产生重大影响。本部分介绍不同体系结构策略的影响。

并行执行数据流

如果并行执行多个数据流，服务会为每个活动启动单独的 Spark 群集。这允许每个作业隔离并并行运行，但将导致多个群集同时运行。

如果您的数据流是并行执行的，我们建议不要为实时属性设置启用 Azure 集成运行时，因为这会导致多个未使用的暖池。

小窍门

对于每个活动，不要多次运行同一数据流，而是在 Data Lake 中暂存数据，并使用通配符路径处理单个数据流中的数据。

按顺序执行数据流

如果按顺序执行数据流活动，建议在 Azure IR 配置中设置 TTL。该服务重复使用计算资源，从而缩短群集启动时间。每个活动仍然是独立的，并且在每次执行时都会获得一个新的 Spark 上下文。

重载单个数据流

如果将所有逻辑放入单个数据流中，该服务会在单个 Spark 实例上执行整个作业。虽然这似乎是一种降低成本的方法，但它将不同的逻辑流混合在一起，并且难以监视和调试。如果一个组件失败，作业的所有其他部分也会失败。建议按业务逻辑的独立流来组织数据流。如果数据流太大，请将数据流拆分为单独的组件，从而更轻松地进行监视和调试。虽然数据流中的转换数量没有硬性限制，但过多会使作业变得复杂。

并行执行汇点

数据流汇聚器的默认行为是逐个按顺序串行执行，并在汇聚器中遇到错误时终止数据流。此外，除非访问数据流属性并为接收器设置不同的优先级，否则所有接收器均默认为同一组。

数据流允许您通过 UI 设计器中的数据流属性选项卡将汇集器组合成组。可以同时设置接收器的执行顺序，并且使用相同的组号将接收器组合在一起。为了帮助管理组，可以要求服务在同一组中运行接收器，以并行运行。

在管道中，在“接收器属性”部分下执行数据流活动是启用并行接收器加载的选项。启用“并行运行”时，您是在指示数据流同时写入已连接的接收器，而不是按顺序依次写入。为了利用并行选项，汇聚器必须被组合在一起，通过“新建分支”或“条件拆分”连接到同一个流。

请参阅与性能相关的其他Data Flow文章：

Last updated on 2026-04-10

在管道中使用数据流

并行执行数据流

按顺序执行数据流

重载单个数据流

并行执行汇点

相关内容

Recursos adicionales