Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
适用于:
Azure 数据工厂
Azure Synapse Analytics
本文使用Azure 数据工厂用户界面创建变更数据捕获(CDC)资源。 资源从Azure Data Lake Storage Gen2源中选取已更改的数据,并将其实时添加到Azure SQL 数据库。
在本文中,您将学习以下内容:
- 创建 CDC 资源。
- 监视 CDC 活动。
可在本文修改和扩展配置模式。
先决条件
在开始本文的过程之前,请确保具有以下资源:
- Azure 订阅。 如果没有Azure订阅,请创建一个 trial Azure 帐户。
- SQL 数据库。 使用Azure SQL 数据库作为源数据存储。 如果没有 SQL 数据库,请在Azure门户中创建一个。
- 存储帐户: 使用存储在 Azure Data Lake Storage Gen2 中的 Delta Lake 作为目标数据存储。 如果没有存储帐户,请参阅创建存储帐户以获取创建步骤。
创建 CDC 工件
转到数据工厂中的“Author”窗格。 在“管道”下,会出现一个名为“变更数据捕获(预览版)”的新顶级项目。
将光标悬停在“更改数据捕获(预览版)”上,直到出现三个点。 然后,选择“更改数据捕获(预览版)操作”。
选择“新建 CDC(预览版)”。 此步骤会打开用于开始引导式过程的浮出控件。
系统会提示你为 CDC 资源命名。 默认情况下,名称为“adfcdc”,还带有一个按 1 递增的数字。 可以将此默认名称替换为自己想要的名称。
使用下拉列表选择数据源。 在本篇文章中,选择DelimitedText。
系统会提示你选择链接服务。 创建新的或选择现有的链接服务。
使用“源设置”区域可选择性地设置高级源配置,包括列分隔符和行分隔符。
如果不手动编辑这些源设置,它们将设置为默认值。
使用“浏览”按钮选择源数据文件夹。
选择文件夹路径后,可选择“继续”来设置数据目标。
可选择使用加号 (+) 按钮来添加多个源文件夹。 其他源也必须使用你已选择的同一链接服务。
使用下拉列表选择“目标类型”值。 对于本文,请选择Azure SQL 数据库。
系统会提示你选择链接服务。 创建新的或选择现有的链接服务。
对于“目标表”,可以创建新的目标表或选择现有的目标表:
若要创建目标表,请选择“新建实体”选项卡,然后选择“编辑新表”。
若要选择现有表,请选择“现有实体”选项卡,然后使用复选框来选择一个表。 使用“预览”按钮来查看表数据。
如果目标中的现有表具有匹配名称,则默认在“现有实体”下选中它们。 如果没有,则在“新建实体”下创建具有匹配名称的新表。 此外,还可使用“编辑新表”按钮来编辑新表。
可使用这些复选框从 SQL 数据库中选择多个目标表。 选择目标表后,选择“继续”。
此时会显示一个用于捕获变更数据的新选项卡。 此选项卡是 CDC 工作室,可在这里配置新资源。
系统会自动为你创建新映射。 您可以使用下拉列表来更新您的映射的源表和目标表选择。
选择表后,默认情况下表的列将自动映射,且“自动映射”开关已开启。 Auto map 会根据列名称自动映射接收器中的列,当源架构发生变化时,自动获取新的列更改,并将这些信息传递到支持的接收器类型。
如果想要使用自动映射,而不是更改任何列映射,请直接转到步骤 18。
若要启用列映射,请选择映射并关闭“自动映射”开关。 然后,选择“列映射”按钮来查看映射。
可打开“自动映射”开关,随时切换回自动映射。
查看你的列映射。 请使用下拉列表来修改映射方法、源列和目标列的对应关系。
在此页中,可以:
- 使用“新建映射”按钮添加更多列映射。 使用下拉列表来选择映射方法、源列和目标列。
- 为了跟踪支持的汇聚点类型的删除操作,请选择“键”列。
- 选择“数据预览”下的“刷新”按钮,来直观呈现数据在目标中的显示方式。
映射完成后,选择箭头按钮以返回主 CDC 画布。
可以在一个 CDC 项目中添加更多源到目标映射。 使用“编辑”按钮以添加更多数据源和目标。 然后选择“新建映射”,并使用下拉列表设置新的源和目标。 可以为每个映射单独打开或关闭自动映射。
映射完成后,使用“设置延迟”按钮来设置 CDC 延迟。
选择您的 CDC 的延迟,然后选择“应用”以进行更改。
默认情况下,延迟设置为“15 分钟”。 本文中的示例使用“实时”选项作为延迟设置。 实时延迟以小于 1 分钟的间隔持续拾取源数据中的更改。
对于其他延迟(例如,如果选择 15 分钟),变更数据捕获将处理源数据,并拾取自上次处理时间以来更改的所有数据。
注意
如果支持扩展到流数据集成(Azure 事件中心和 Kafka 数据源),则默认情况下延迟将设置为 real-time。
配置 CDC 后,选择“全部发布”来发布更改。
注意
如果不发布更改,将无法启动 CDC 资源。 下一步中的“开始”按钮将不可用。
选择开始以启动变更数据捕获的运行。
监视变更数据捕获
使用以下任一方法打开“监视”窗格:
选择“变更数据捕获(预览版)”以查看 CDC 资源。
“变更数据捕获”窗格会显示变更数据捕获的源、目标、状态和上次处理时间信息。
选择 CDC 的名称以查看更多详细信息。 可以查看已读取和已写入的更改(插入、更新或删除)数及其他诊断信息。
如果在变更数据捕获中设置了多个映射,每个映射以不同的颜色显示。 单击条形以查看每个映射的具体详细信息,或者使用窗格底部的诊断信息。