结构化流式处理

项目
10/17/2023

结构化流是一个 Apache Spark API，可让你基于流数据表达计算，就像基于静态数据表达批处理计算一样。结构化流式处理引擎以增量方式执行计算，并在流数据抵达时持续更新结果。有关结构化流的概述，请参阅 Apache Spark 结构化流编程指南。以下文章提供了介绍性笔记本、有关如何使用特定类型的流源和接收器、如何将流投入生产的详细信息，以及用于演示示例用例的笔记本：

演示笔记本
- 结构化流演示 Python 笔记本
- 结构化流演示 Scala 笔记本
流式处理数据源和接收器
生产中的结构化流式处理
结构化流示例

API 参考

有关结构化流的参考信息，Azure Databricks 建议参阅以下 Apache Spark API 参考文章：

Python
Scala
Java

博客

有关如何使用 Apache Spark 执行复杂流分析的详细信息，请参阅以下由多个部分组成的博客系列中的文章：

使用结构化流执行实时流 ETL
使用结构化流处理复杂数据格式
使用结构化流处理 Apache Kafka 中的数据
Apache Spark 的结构化流中的事件时间聚合和水印
将 Apache Spark 的结构化流投入生产
每天运行流式处理作业一次可实现 10 倍的成本节省：可缩放数据第 6 部分
Apache Spark 的结构化流中的任意有状态处理

旧版 Spark 流式处理

有关旧版 Spark 流功能的信息，请参阅：

Spark 流（旧版）

结构化流式处理

API 参考

博客

旧版 Spark 流式处理

其他资源