다음을 통해 공유

Lakeflow Connect 中的标准连接器

本页介绍 Databricks Lakeflow Connect 中的标准连接器,与托管连接器相比,该连接器提供更高级别的引入管道自定义。

ETL 堆栈各层

某些连接器在 ETL 堆栈的一个级别运行。 例如,Databricks 为 Salesforce 等企业应用程序提供完全托管的连接器,以及 SQL Server 等数据库。 其他连接器在 ETL 堆栈的多层上运行。 例如,可以在 Structured Streaming 结构化流中使用标准连接器,以实现完全的定制化;或者,可以使用 Lakeflow 声明性管道,以提供更好的托管体验。

ETL 堆栈图

Databricks 建议从最托管层开始。 如果它不满足你的要求(例如,如果它不支持数据源),请下拉到下一层。

下表描述了从最可自定义到最托管的引入产品的三个层:

Description
结构化数据流 Apache Spark 结构化流式处理是一个流式处理引擎,它使用 Spark API 提供端到端容错和“恰好一次”处理保证。
“Lakeflow” 声明性管道 Lakeflow 声明性管道基于结构化流式处理构建,提供用于创建数据管道的更声明性框架。 可以定义要对数据执行的转换,Lakeflow 声明性管道负责管理编排、监控、数据质量、错误等方面。 因此,它提供比结构化流式处理更多的自动化和更少的开销。

选择连接器

下表列出了数据源和管道自定义级别的标准引入连接器。

从云对象存储进行增量引入的 SQL 示例使用 CREATE STREAMING TABLE 语法。 它为 SQL 用户提供了一种可扩展且可靠的引入体验,因此建议使用 COPY INTO 作为替代方案。

来源 更多自定义 部分个性化设置
云对象存储 自动加载程序结合结构化流式处理
(Python、Scala)
采用 Lakeflow 声明性管道的自动加载器
(Python、SQL)
Apache Kafka 采用 Kafka 源的结构化流式处理
(Python、Scala)
基于 Kafka 源的 Lakeflow 声明式管道
(Python、SQL)
Apache Pulsar 使用 Pulsar 源的结构化流式处理
(Python、Scala)
采用 Pulsar 源的 Lakeflow 声明性管道
(Python、SQL)

引入计划

可以将引入管道配置为按定期计划运行或持续运行。

用例 管道模式
批量摄取 触发:按计划或手动触发时处理新数据。
流式引入 连续:在到达源时处理新数据。