Azure Synapse Analytics 中的映射数据

什么是映射数据工具?

映射数据工具是一种引导式过程,可帮助用户创建 ETL 映射,并在不编写代码的情况下将数据流从其源数据映射到 Synapse 湖数据库表。 此过程始于用户在 Synapse 湖数据库中选择目标表,然后将其源数据映射到这些表。

地图数据提供了一种引导式体验,用户可以在其中生成地图数据流,而无需从空白画布开始。 然后,你可以快速生成可在 Synapse 管道中运行的可扩展映射数据流。

入门

从 Synapse 湖数据库体验中启动映射数据工具。 在这里,你可以选择映射数据工具来开始该过程。

Screenshot showing how to open an Map data.

映射数据需要可用计算来帮助用户预览数据并读取源文件的架构。 在会话中首次使用映射数据时,需要预热群集。 Screenshot showing debug clusters.

首先,选择要映射到湖数据库表的数据源。 当前支持的数据源有 Azure Data Lake Storage Gen 2 和 Synapse 湖数据库。 Screenshot showing sources.

文件类型选项

选择 Azure Data Lake Storage Gen 2 等文件存储时,支持以下文件类型:

  • 常见数据模型
  • 带分隔符的文本
  • Parquet

创建数据映射

使用你选择的源类型配置数据映射。 Screenshot showing map data file configuration settings.

注意

可以选择一个文件夹或单个文件。 如果选择一个文件夹,则将能够将多个文件映射到你的湖数据库表。 如果选择文件夹,则选择后还会提示你继续仅包含特定文件(如果需要)。

命名数据映射并选择 Synapse 湖数据库目标。 Screenshot showing naming and destination.

源到目标的映射

选择要映射到 Synapse 湖数据库目标表的主源表。 Screenshot showing Map data rules.

新映射

使用“新建映射”按钮添加映射方法以创建映射或转换。

其他源

使用“其他源”按钮联接到另一个源并将其添加到映射。

预览数据

“数据预览”选项卡提供每个转换的数据的交互式快照。 有关详细信息,请参阅调试模式下的数据预览

映射方法

支持以下映射方法:

创建管道

完成映射数据转换后,选择“创建管道”按钮,生成用于调试和运行转换的映射数据流和管道。