Batch 与 Azure Databricks 中的流式处理数据处理

本文介绍批处理和流式处理之间的主要差异、用于数据工程工作负荷的两种不同的数据处理语义，包括引入、转换和实时处理。

流式处理通常与消息总线（如 Apache Kafka）的低延迟和连续处理相关联。

但是，在 Azure Databricks 中，它具有更广阔的定义。 Lakeflow Spark 声明性管道（Apache Spark 和结构化流式处理）的基础引擎具有用于批处理和流式处理的统一体系结构：

下面是区分批处理和流式处理的基本语义差异，包括它们的优缺点，以及为工作负荷选择它们的注意事项。

批处理语义

通过批处理，引擎不会跟踪源中已处理的数据。处理时会处理源中当前可用的所有数据。实际上，批处理数据源通常按逻辑进行分区，例如按天或区域来限制数据重新处理。

例如，计算按每小时粒度聚合的平均商品销售价格，以按小时粒度计算电子商务公司运行的销售事件，可以计划为批处理来计算每小时的平均销售价格。使用批处理时，每小时重新处理前几小时的数据，并覆盖以前计算的结果以反映最新结果。

批处理

通过流处理，引擎会跟踪正在处理的数据，并且只会在后续运行中处理新数据。在上面的示例中，可以计划流式处理而不是批处理，以计算每小时的平均销售价格。使用流式处理时，仅处理自上次运行以来添加到源的新数据。新计算的结果必须追加到之前计算的结果，才能检查完整的结果。

流式处理

在上面的示例中，流式处理优于批处理，因为它不会处理在以前的运行中处理的相同数据。但是，流式处理在源中无序和延迟到达数据等方案中会变得更加复杂。

延迟到达数据的一个示例是，如果第一小时的一些销售数据直到第二小时才到达源：

在批处理中，第一小时的延迟到达数据将与第二小时的数据以及第一小时的现有数据一起处理。将使用延迟到达数据覆盖和更正前一小时内的上一个结果。
在流处理中，将从第一小时到达的延迟数据进行处理，而不会处理任何其他已处理的第一小时数据。处理逻辑必须存储第一小时的平均计算中的总和和和信息，才能正确更新以前的结果。

当处理有状态（例如联接、聚合和重复数据删除）时，通常会引入这些流式处理复杂性。

对于无状态流处理（例如从源追加新数据），处理无序和延迟到达数据不太复杂，因为延迟到达的数据可以追加到以前的结果中，因为数据到达源。

下表概述了批处理和流式处理的优点和缺点，以及支持 Databricks Lakeflow 中这两种处理语义的不同产品功能。

处理语义	Pros	Cons	数据工程产品
Batch	处理逻辑很简单。结果始终准确，反映源中的所有可用数据。	它没有那么高效：数据将在特定的批处理分区中重新处理。速度较慢，可以处理从小时到分钟（而不是秒或毫秒）的延迟要求。	Lakeflow Spark 声明性管道具体化视图流和具体化视图。 Databricks Runtime - Apache Spark （`spark.read.load()` 和 `spark.write.save()`）。
流媒体	高效、仅处理新数据。更快地处理从小时到分钟、秒和毫秒的延迟要求。	处理逻辑可能很复杂，尤其是用于有状态处理，例如联接、聚合、重复数据删除等。在考虑无序和延迟到达数据时，结果并不总是准确的。	Lakeflow Connect。 Lakeflow Spark 声明性管道追加流、应用更改流、流式处理表和接收器。 Databricks Runtime - Spark 结构化流式处理（`spark.readStream.load()` 和 `spark.writeStream.start()`）。

下表概述了基于奖牌体系结构各层数据处理工作负载的特征的建议处理语义。

奖牌层	工作负荷特征	建议
青铜	引入工作负载。通常涉及从数据源进行增量追加的无状态处理或无状态处理。数据的大小通常更大。	流式处理通常是更好的选择，因为用户可以受益于流式处理的优势，但不会暴露在有状态流处理的复杂性。
银	转换工作负荷。通常涉及无状态处理，例如筛选和有状态处理，例如联接、聚合和重复数据删除。	使用批处理（在具体化视图中进行增量刷新）以避免有状态流处理的复杂性。使用流式处理作为用例的一个选项，即效率和延迟比结果准确性更重要。请注意有状态流处理引入的复杂性。
金	最后一英里聚合工作负荷。通常涉及有状态处理，例如联接和聚合。数据的大小通常较小。	使用批处理（在具体化视图中进行增量刷新）以避免有状态流处理的复杂性。