变更数据捕获资源概述
适用于:Azure 数据工厂 Azure Synapse Analytics
对于负责构建复杂数据集成和 ETL 管道的数据工程师来说,适应云优先的大数据世界可能极具挑战性。
Azure 数据工厂引入了一种新机制,使数据工程师的工作更轻松。
通过自动检测源中的数据变更,无需复杂的设计或编码,ADF 使缩放这些流程变得轻而易举。 变更数据捕获现在将作为新的本机顶级资源存在于 Azure 数据工厂工作室中,数据工程师可以在其中快速配置持续运行的作业,以极高的效率大规模处理大数据。
ADF 中的新变更数据捕获资源允许通过引导式配置体验实现准实时连续运行的完全保真变更数据捕获。
注意
Azure 数据工厂中的变更数据捕获资源目前以公共预览版提供
支持的数据源
- Avro
- Azure Cosmos DB (SQL API)
- Azure SQL 数据库
- Azure SQL 托管实例
- 带分隔符的文本
- JSON
- ORC
- Parquet
- SQL Server
- XML
- Snowflake
支持的目标
- Avro
- Azure SQL 数据库
- SQL 托管实例
- 带分隔符的文本
- 增量
- JSON
- ORC
- Parquet
- Azure Synapse Analytics
已知限制
- 目前,在创建源/目标映射时,每个源和目标只允许使用一次。
- 目前不支持复杂类型。
- 目前不支持自承载集成运行时 (SHIR)。
有关已知限制和故障排除帮助的详细信息,请参阅此故障排除指南。
Azure Synapse Analytics 作为目标
使用 Azure Synapse Analytics 作为目标时,暂存设置在主表画布上可用。 选择 Azure Synapse Analytics 作为目标时,必须启用暂存。 这通过利用高性能大容量加载功能(例如 COPY INTO 命令)显著提高了写入性能。 可以通过两种方式配置暂存设置:利用工厂设置或选择自定义设置。 工厂设置适用于工厂级别。 首次操作时,如果未配置这些设置,会定向到全局暂存设置部分进行配置。 设置后,所有 CDC 顶级资源都将采用此配置。 自定义设置的范围仅适用于为其配置的 CDC 资源,并覆盖工厂设置。
注意
当我们利用 COPY INTO 命令将数据从暂存位置传输到 Azure Synapse Analytics 时,建议确保在 Azure Synapse Analytics 中预配置所有所需的权限。
注意
启动 CDC 时,我们始终使用上次发布的配置。 为了运行 CDC,在数据进行处理时,将支付 4 个 V 核心常规用途数据流的费用。