Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
使用多个数据流生成复杂的管道时,逻辑流可能会对计时和成本产生重大影响。 本部分介绍不同体系结构策略的影响。
并行执行数据流
如果并行执行多个数据流,服务会为每个活动启动单独的 Spark 群集。 这允许每个作业隔离并并行运行,但将导致多个群集同时运行。
如果您的数据流是并行执行的,我们建议不要为实时属性设置启用 Azure 集成运行时,因为这会导致多个未使用的暖池。
小窍门
对于每个活动,不要多次运行同一数据流,而是在 Data Lake 中暂存数据,并使用通配符路径处理单个数据流中的数据。
按顺序执行数据流
如果按顺序执行数据流活动,建议在 Azure IR 配置中设置 TTL。 该服务重复使用计算资源,从而缩短群集启动时间。 每个活动仍然是独立的,并且在每次执行时都会获得一个新的 Spark 上下文。
重载单个数据流
如果将所有逻辑放入单个数据流中,该服务会在单个 Spark 实例上执行整个作业。 虽然这似乎是一种降低成本的方法,但它将不同的逻辑流混合在一起,并且难以监视和调试。 如果一个组件失败,作业的所有其他部分也会失败。 建议按业务逻辑的独立流来组织数据流。 如果数据流太大,请将数据流拆分为单独的组件,从而更轻松地进行监视和调试。 虽然数据流中的转换数量没有硬性限制,但过多会使作业变得复杂。
并行执行汇点
数据流汇聚器的默认行为是逐个按顺序串行执行,并在汇聚器中遇到错误时终止数据流。 此外,除非访问数据流属性并为接收器设置不同的优先级,否则所有接收器均默认为同一组。
数据流允许您通过 UI 设计器中的数据流属性选项卡将汇集器组合成组。 可以同时设置接收器的执行顺序,并且使用相同的组号将接收器组合在一起。 为了帮助管理组,可以要求服务在同一组中运行接收器,以并行运行。
在管道中,在“接收器属性”部分下执行数据流活动是启用并行接收器加载的选项。 启用“并行运行”时,您是在指示数据流同时写入已连接的接收器,而不是按顺序依次写入。 为了利用并行选项,汇聚器必须被组合在一起,通过“新建分支”或“条件拆分”连接到同一个流。
相关内容
请参阅与性能相关的其他数据流文章: