在 Azure Databricks 上使用联接

Databricks 支持 ANSI 标准联接语法。本页介绍联接与批处理和流处理之间的差异。

注意

Databricks 还支持集运算符 UNION、INTERSECT、EXCEPT 的标准语法。请参阅集运算符。

流式处理和批处理联接之间的差异

Azure Databricks上的联接是有状态的或无状态的。

所有批量联接都是无状态联接。结果会被立即处理，并在查询运行时反映出当时的数据。每次执行查询时，都会根据指定的源数据计算新结果。请参阅批量联接。

两个流数据源之间的联接是有状态的。在有状态联接中，Azure Databricks跟踪有关数据源和结果的信息，并迭代更新结果。有状态联接可以为联机数据处理提供强大的解决方案，但很难有效地实施。它们具有复杂的操作语义，具体取决于输出模式、触发器间隔和水印。请参阅流之间的联接。

流静态联接是无状态的，但它为增量数据源（如事实数据表）与静态数据源（如渐变维度表）的联接提供了一个不错的选择。每次执行查询时，不联接来自双方的所有记录，而是仅将来自流源的新接收的记录与静态表的当前版本联接。请参阅流静态联接。

批量连接

Azure Databricks支持标准 SQL 联接语法，包括内部、外部、半、反和交叉联接。请参阅联接。

注意

Databricks 建议使用具体化视图优化内联结果的增量计算。请参阅具体化视图。

流之间的联接

联接两个流式处理数据源可能会对管理状态信息以及对结果计算和输出的推理带来重大挑战。在实现流-流联接之前，Databricks 建议透彻了解有状态流式处理的操作语义，包括水印如何影响状态管理。请参阅以下页面：

Databricks 建议为所有流联接的两侧指定水印。支持以下联接类型：

内连接
左外部联接
右外部联接
完全外部联接
左半联接

请参阅有关流联接的 Apache Spark 结构化流式处理文档。

流静态联接

注意

对流静态联接描述的行为假定静态数据是使用 Delta Lake 存储的。

流静态联接使用无状态联接将最新有效版本的 Delta 表（静态数据）联接到数据流。

当 Azure Databricks 处理流-静态联接中的微批处理数据时，来自静态 Delta 表的最新有效版本数据会与当前微批处理中的记录结合。由于联接是无状态的，因此无需配置水印，并且可以以低延迟处理结果。联接中使用的静态 Delta 表中的数据应缓慢变化。

注意

如果在运行之间更新静态表，则重新处理相同的流数据可能会产生不同的结果。如果联接的静态端发生更改，流-静态联接的输出可能是不确定的，因为在处理过程中，每个微批处理都会与当时静态表的最新版本进行联接。

下面的示例对此模式进行了演示：

streamingDF = spark.readStream.table("orders")
staticDF = spark.read.table("customers")

query = (streamingDF
  .join(staticDF, streamingDF.customer_id==staticDF.id, "inner")
  .writeStream
  .option("checkpointLocation", checkpoint_path)
  .table("orders_with_customer_info")
)

有关Azure Databricks的联接提示

Apache Spark 支持指定范围联接和倾斜联接的联接提示。不需要倾斜联接提示，因为Azure Databricks会自动优化这些联接。请参阅提示。

如果联接性能不佳并且你在执行非等值联接，则范围联接的提示可能会有用。例子包括在时间戳范围或聚类 ID 范围上进行联接。请参阅 Range 联接优化和优化 Azure Databricks 中的联接性能。

Last updated on 2026-04-17