Azure Synapse Analytics 中的映射数据
什么是映射数据工具?
映射数据工具是一种引导式过程,可帮助用户创建 ETL 映射,并在不编写代码的情况下将数据流从其源数据映射到 Synapse 湖数据库表。 此过程始于用户在 Synapse 湖数据库中选择目标表,然后将其源数据映射到这些表。
地图数据提供了一种引导式体验,用户可以在其中生成地图数据流,而无需从空白画布开始。 然后,你可以快速生成可在 Synapse 管道中运行的可扩展映射数据流。
入门
从 Synapse 湖数据库体验中启动映射数据工具。 在这里,你可以选择映射数据工具来开始该过程。
映射数据需要可用计算来帮助用户预览数据并读取源文件的架构。 在会话中首次使用映射数据时,需要预热群集。
首先,选择要映射到湖数据库表的数据源。 当前支持的数据源有 Azure Data Lake Storage Gen 2 和 Synapse 湖数据库。
文件类型选项
选择 Azure Data Lake Storage Gen 2 等文件存储时,支持以下文件类型:
- 常见数据模型
- 带分隔符的文本
- Parquet
创建数据映射
使用你选择的源类型配置数据映射。
注意
可以选择一个文件夹或单个文件。 如果选择一个文件夹,则将能够将多个文件映射到你的湖数据库表。 如果选择文件夹,则选择后还会提示你继续仅包含特定文件(如果需要)。
命名数据映射并选择 Synapse 湖数据库目标。
源到目标的映射
选择要映射到 Synapse 湖数据库目标表的主源表。
新映射
使用“新建映射”按钮添加映射方法以创建映射或转换。
其他源
使用“其他源”按钮联接到另一个源并将其添加到映射。
预览数据
“数据预览”选项卡提供每个转换的数据的交互式快照。 有关详细信息,请参阅调试模式下的数据预览。
映射方法
支持以下映射方法:
创建管道
完成映射数据转换后,选择“创建管道”按钮,生成用于调试和运行转换的映射数据流和管道。