Lakeflow Spark 声明性管道中的流示例

示例：从多个 Kafka 主题写入流式处理表

以下示例创建一个名为 kafka_target 的流式处理表，并从两个 Kafka 主题写入该流式处理表：

Python

from pyspark import pipelines as dp

dp.create_streaming_table("kafka_target")

# Kafka stream from multiple topics
@dp.append_flow(target = "kafka_target")
def topic1():
  return (
    spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "host1:port1,...")
      .option("subscribe", "topic1")
      .load()
  )

@dp.append_flow(target = "kafka_target")
def topic2():
  return (
    spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "host1:port1,...")
      .option("subscribe", "topic2")
      .load()
  )

SQL

CREATE OR REFRESH STREAMING TABLE kafka_target;

CREATE FLOW
  topic1
AS INSERT INTO
  kafka_target BY NAME
SELECT * FROM
  read_kafka(bootstrapServers => 'host1:port1,...', subscribe => 'topic1');

CREATE FLOW
  topic2
AS INSERT INTO
  kafka_target BY NAME
SELECT * FROM
  read_kafka(bootstrapServers => 'host1:port1,...', subscribe => 'topic2');

若要详细了解 read_kafka() SQL 查询中使用的表值函数，请参阅 SQL 语言参考中的 read_kafka 。

在 Python 中，可以编程方式创建面向单个表的多个流。以下示例显示了 Kafka 主题列表的此模式。

注释

此模式的要求与使用 for 循环创建表的要求相同。必须将 Python 值显式传递给定义流的函数。请参阅在for 循环中创建表。

from pyspark import pipelines as dp

dp.create_streaming_table("kafka_target")

topic_list = ["topic1", "topic2", "topic3"]

for topic_name in topic_list:

  @dp.append_flow(target = "kafka_target", name=f"{topic_name}_flow")
  def topic_flow(topic=topic_name):
    return (
      spark.readStream
        .format("kafka")
        .option("kafka.bootstrap.servers", "host1:port1,...")
        .option("subscribe", topic)
        .load()
    )

示例：运行一次性数据回填

如果要运行查询以将数据追加到现有流式处理表，请使用 append_flow。

追加一组现有数据后，有多个选项：

如果希望查询在新数据抵达回填目录时能够自动添加，请保持查询有效。
如果希望这是一次性回填，并且永远不会再次运行，请在运行管道一次后删除查询。
如果希望查询仅运行一次，并且仅在数据被完全刷新时再次运行，请在追加流程中将 once 参数设置为 True。在 SQL 中，使用 INSERT INTO ONCE。

以下示例运行查询以将历史数据追加到流式处理表：

Python

from pyspark import pipelines as dp

@dp.table()
def csv_target():
  return spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format","csv")
    .load("path/to/sourceDir")

@dp.append_flow(
  target = "csv_target",
  once = True)
def backfill():
  return spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format","csv")
    .load("path/to/backfill/data/dir")

SQL

CREATE OR REFRESH STREAMING TABLE csv_target
AS SELECT * FROM
  read_files(
    "path/to/sourceDir",
    "csv"
  );

CREATE FLOW
  backfill
AS INSERT INTO ONCE
  csv_target BY NAME
SELECT * FROM
  read_files(
    "path/to/backfill/data/dir",
    "csv"
  );

有关更深入的示例，请参阅使用管道回填历史数据。

示例：使用追加流处理而不是 `UNION`

可以使用追加流查询来合并多个源并写入单个流式表，而不是使用带有UNION子句的查询。使用追加流查询替代UNION，可以在不进行完全刷新的情况下，从多个源追加到流式处理表中。

以下 Python 示例包含一个查询，该查询将多个数据源与子句组合在一起 UNION ：

@dp.create_table(name="raw_orders")
def unioned_raw_orders():
  raw_orders_us = (
    spark.readStream
      .format("cloudFiles")
      .option("cloudFiles.format", "csv")
      .load("/path/to/orders/us")
  )

  raw_orders_eu = (
    spark.readStream
      .format("cloudFiles")
      .option("cloudFiles.format", "csv")
      .load("/path/to/orders/eu")
  )

  return raw_orders_us.union(raw_orders_eu)

以下示例将 UNION 查询替换为追加流查询：

Python

dp.create_streaming_table("raw_orders")

@dp.append_flow(target="raw_orders")
def raw_orders_us():
  return spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format", "csv")
    .load("/path/to/orders/us")

@dp.append_flow(target="raw_orders")
def raw_orders_eu():
  return spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format", "csv")
    .load("/path/to/orders/eu")

# Additional flows can be added without the full refresh that a UNION query would require:
@dp.append_flow(target="raw_orders")
def raw_orders_apac():
  return spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format", "csv")
    .load("/path/to/orders/apac")

SQL

CREATE OR REFRESH STREAMING TABLE raw_orders;

CREATE FLOW
  raw_orders_us
AS INSERT INTO
  raw_orders BY NAME
SELECT * FROM
  STREAM read_files(
    "/path/to/orders/us",
    format => "csv"
  );

CREATE FLOW
  raw_orders_eu
AS INSERT INTO
  raw_orders BY NAME
SELECT * FROM
  STREAM read_files(
    "/path/to/orders/eu",
    format => "csv"
  );

-- Additional flows can be added without the full refresh that a UNION query would require:
CREATE FLOW
  raw_orders_apac
AS INSERT INTO
  raw_orders BY NAME
SELECT * FROM
  STREAM read_files(
    "/path/to/orders/apac",
    format => "csv"
  );

Last updated on 2025-12-16

通过

Lakeflow Spark 声明性管道中的流示例

示例：从多个 Kafka 主题写入流式处理表

Python

SQL

示例：运行一次性数据回填

Python

SQL

示例：使用追加流处理而不是 UNION

Python

SQL

其他资源

示例：使用追加流处理而不是 `UNION`