Compartir a través de

变更数据捕获资源概述

适用于: Azure 数据工厂 Azure Synapse Analytics

对于负责构建复杂数据集成和 ETL 管道的数据工程师来说,适应云优先的大数据世界可能极具挑战性。

Azure 数据工厂引入了一种新机制,使数据工程师的生活更加轻松。

通过自动检测源中的数据变更,无需复杂的设计或编码,ADF 使缩放这些流程变得轻而易举。 变更数据捕获现在将作为新的本机顶级资源存在于Azure 数据工厂工作室中,数据工程师可以快速配置持续运行的作业,以极高效地大规模处理大数据。

ADF 中的新变更数据捕获资源允许通过引导式配置体验实现准实时连续运行的完全保真变更数据捕获。

“工厂资源”面板中新顶级资源的屏幕截图。

注意

Azure 数据工厂中的变更数据捕获资源目前以公共预览版提供

支持的数据源

  • Avro
  • Azure Cosmos DB (SQL API)
  • Azure SQL 数据库
  • Azure SQL 托管实例
  • 带分隔符的文本
  • JSON
  • ORC
  • Parquet
  • SQL Server
  • XML
  • Snowflake

支持的目标

  • Avro
  • Azure SQL 数据库
  • SQL 托管实例
  • 带分隔符的文本
  • Delta
  • JSON
  • ORC
  • Parquet
  • Azure Synapse Analytics

已知限制

  • 目前,在创建源/目标映射时,每个源和目标只允许使用一次。
  • 目前不支持复杂类型。
  • 目前不支持自承载集成运行时 (SHIR)。

有关已知限制和故障排除帮助的详细信息,请参阅此故障排除指南

将Azure Synapse Analytics作为目标平台

将Azure Synapse Analytics用作目标时,可以在主表画布上找到暂存设置。 选择Azure Synapse Analytics作为目标时,必须启用暂存。 这通过利用高性能大容量加载功能(例如 COPY INTO 命令)显著提高了写入性能。 可以通过两种方式配置暂存设置:利用工厂设置或选择自定义设置工厂设置适用于工厂层面。 首次使用时,如果尚未配置这些设置,系统将引导你前往全局暂存设置页面进行配置。 设置后,所有 CDC 顶级资源都将采用此配置。 自定义设置的作用域仅限于配置该设置时所针对的 CDC 资源,并且优先于工厂设置

注意

由于我们使用 COPY INTO 命令将数据从暂存位置传输到Azure Synapse Analytics,因此建议确保在Azure Synapse Analytics中预先配置所有必需的权限。

注意

启动 CDC 时,我们始终使用上次发布的配置。 为了运行 CDC,在处理你的数据时,将向你收取 4 个 V 核心常规用途数据流的费用。