Azure 数据工厂中的映射数据流

适用于: Azure 数据工厂

映射数据流是什么?

映射数据流是 Azure 数据工厂中以可视方式设计的数据转换。 使用数据流,数据工程师可以开发数据转换逻辑,无需编写代码。 生成的数据流是使用横向扩展的 Apache Spark 群集作为活动在 Azure 数据工厂管道内执行的。 可以通过现有的 Azure 数据工厂计划、控制、流和监视功能,将数据流活动操作化。

映射数据流提供完全直观的体验,无需编码。 数据流在 ADF 托管的执行群集上运行,以进行横向扩展的数据处理。 Azure 数据工厂处理数据流作业的所有代码转换、路径优化以及执行。

入门

数据流是从“工厂资源”窗格(如管道和数据集)中创建的。 若要创建数据流,请选择“工厂资源”旁边的加号,然后选择“数据流” 。

新建数据流

此操作将转到数据流画布,你可在其中创建转换逻辑。 选择“添加源”,开始配置源转换。 有关详细信息,请参阅源转换

创作数据流

映射数据流具有独特的创作画布,旨在简化生成转换逻辑。 数据流画布分为三个部分:顶部栏、图形和配置面板。

屏幕截图显示数据流画布,其中标记了顶部栏、图形和配置面板。

图形

图形显示转换流。 它显示源数据流入一个或多个接收器时的沿袭。 若要添加新源,请选择“添加源”。 若要添加新的转换,请选择现有转换右下方的加号。 详细了解如何管理数据流图形

显示画布的图形部分,其中包含“搜索”文本框。

配置面板

配置面板显示特定于当前所选转换的设置。 如果未选择任何转换,则会显示数据流。 在整个数据流配置中,可以通过“参数”选项卡来添加参数。有关详细信息,请参阅映射数据流参数

每个转换至少包含四个配置选项卡。

转换设置

每个转换的配置窗格中的第一个选项卡包含特定于该转换的设置。 有关详细信息,请参阅转换的文档页。

源设置选项卡

优化

“优化”选项卡包含用于配置分区方案的设置。 若要详细了解如何优化数据流,请参阅映射数据流性能指南

屏幕截图显示“优化”选项卡,其中包含“分区选项”、“分区类型”和“分区数”。

检查

可以通过“检查”选项卡了解正在转换的数据流的元数据。 可以看到列计数、更改的列、添加的列、数据类型、列排序以及列引用。 “检查”视图是针对元数据的只读视图。 不需启用调试模式即可在“检查”窗格中查看元数据。

检查

以转换方式更改数据的形状时,可以在“检查”窗格中查看元数据更改流。 如果源转换中没有定义的架构,则元数据将在“检查”窗格中不可见。 在架构偏差场景中,缺少元数据是很常见的。

数据预览

如果开启了调试模式,则“数据预览”选项卡将在每次转换时提供数据的交互式快照。 有关详细信息,请参阅调试模式下的数据预览

上栏

顶部栏包含影响整个数据流的操作,如保存和验证。 还可以查看转换逻辑的基础 JSON 代码和数据流脚本。 有关详细信息,请参阅数据流脚本

可用转换

查看映射数据流转换概述以获取可用转换的列表。

数据流数据类型

  • array
  • binary
  • boolean
  • complex
  • decimal(包括精度)
  • date
  • FLOAT
  • integer
  • long
  • map
  • short
  • 字符串
  • timestamp

数据流活动

映射数据流是使用数据流活动在 ADF 管道内进行操作化的。 用户需要做的就是指定要使用的集成运行时并传入参数值。 有关详细信息,请参阅 Azure 集成运行时

调试模式

使用调试模式可以在生成和调试数据流时以交互方式查看每个转换步骤的结果。 生成数据流逻辑和使用数据流活动运行管道调试运行时,都可以使用调试会话。 若要了解详细信息,请参阅调试模式文档

监视数据流

映射数据流与现有的 Azure 数据工厂监视功能集成。 若要了解如何掌握数据流监视输出,请参阅监视映射数据流

Azure 数据工厂团队已创建性能优化指南,可帮助你在生成业务逻辑后优化数据流的执行时间。

后续步骤