使用数据整理准备数据

适用于: Azure 数据工厂 Azure Synapse Analytics

提示

试用 Microsoft Fabric 中的数据工厂,这是一种适用于企业的一站式分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。 了解如何免费开始新的试用

数据工厂中的数据整理能让你在 ADF 中本地构建交互式 Power Query 混合,然后在 ADF 管道内大规模执行。

创建 Power Query 活动

可通过两种方法在 Azure 数据工厂中创建 Power Query。 一种方法是单击加号图标,然后在工厂资源窗格中选择“Power Query”。

Screenshot that shows Power Query in the factory resources pane.

另一种方法是在管道画布的“活动”窗格中进行。 打开 Power Query 可折叠,将 Power Query 活动拖到画布上。

Screenshot that highlights the data wrangling option.

创作 Power Query 数据整理活动

为 Power Query 混合添加“源数据集”。 可以选择现有数据集,也可以创建新数据集。 保存混搭后,可以创建管道,将 Power Query 数据整理活动添加到管道,然后选择一个接收器数据集来告知 ADF 将数据放入何处。 虽然可以选择一个或多个源数据集,但此时只允许选择一个接收器。 接收器数据集是可选选项,但源数据集至少要选择一个。

Wrangling

单击“创建”以打开 Power Query 在线混合编辑器。

首先,为混合编辑器选择数据集源。

Power Query source.

完成 Power Query 的构建后,可以保存它,然后创建管道。 需要将混搭作为活动添加到管道。 这时你将创建/选择接收器数据集以放置数据。 还可以通过单击接收器数据集右侧的第二个按钮来设置接收器数据集属性。 如果你只想得到一个输出文件,记得将“优化”下的“分区选项”更改为“单个分区”。

Power Query sink.

使用无代码数据准备来创作整理 Power Query。 有关可用函数的列表,请参阅转换函数。 ADF 将 M 脚本转换为数据流脚本,以便可以使用 Azure 数据工厂数据流 Spark 环境大规模执行 Power Query。

Screenshot that shows the process for authoring your data wrangling Power Query.

运行和监视 Power Query 数据整理活动

若要执行 Power Query 活动的管道调试运行,请在管道画布中单击“调试”。 一旦发布管道,“触发器”就会执行最后发布管道的按需运行。 可以通过所有现有的 Azure 数据工厂触发器来安排 Power Query 管道。

Screenshot that shows how to add a Power Query data wrangling activity.

转到“监视”选项卡,以可视化被触发的 Power Query 活动运行的输出。

Screenshot that shows the output of a triggered wrangling Power Query activity run.

了解如何创建映射数据流