结构化流式处理
结构化流是一个 Apache Spark API,可让你基于流数据表达计算,就像基于静态数据表达批处理计算一样。 结构化流式处理引擎以增量方式执行计算,并在流数据抵达时持续更新结果。 有关结构化流的概述,请参阅 Apache Spark 结构化流编程指南。 以下文章提供了介绍性笔记本、有关如何使用特定类型的流源和接收器、如何将流投入生产的详细信息,以及用于演示示例用例的笔记本:
API 参考
有关结构化流的参考信息,Azure Databricks 建议参阅以下 Apache Spark API 参考文章:
博客
有关如何使用 Apache Spark 执行复杂流分析的详细信息,请参阅以下由多个部分组成的博客系列中的文章:
- 使用结构化流执行实时流 ETL
- 使用结构化流处理复杂数据格式
- 使用结构化流处理 Apache Kafka 中的数据
- Apache Spark 的结构化流中的事件时间聚合和水印
- 将 Apache Spark 的结构化流投入生产
- 每天运行流式处理作业一次可实现 10 倍的成本节省:可缩放数据第 6 部分
- Apache Spark 的结构化流中的任意有状态处理
旧版 Spark 流式处理
有关旧版 Spark 流功能的信息,请参阅: