什么是数据整理？

适用于： Azure Data Factory Azure Synapse Analytics

数据整理涉及从其原始源转换和重新格式化数据，使其更适用于各种下游应用程序。

组织需要能够浏览其关键的业务数据，以进行数据准备和整理，从而准确地分析这些每日持续增长的复杂数据。为了让组织可以在各种业务流程中利用数据并缩短实现价值的时间，数据准备是必要的。

借助数据工厂，可以使用 Power Query 以迭代方式在云规模上准备无代码数据。数据工厂与 Power Query Online 集成，使 Power Query M 函数可用作管道活动。

数据工厂将由 Power Query Online Mashup 编辑器生成的 M 转换为 Azure Data Factory 数据流，从而将其转换为用于云规模执行的 Spark 代码。使用Power Query和数据流整理数据对于数据工程师或“公民数据集成商”尤其有用。

用例

快速交互式数据探索和准备

多个数据工程师和公民集成商可通过交互方式进行云规模的数据集探索和准备。随着数据湖中数据的数量、种类和速度的增长，用户需要一种有效的方法来探索和准备数据集。例如，用户可能需要创建一个“包含自 2017 年以来所有新客户统计信息”的数据集。你没有映射到已知目标。用户要先探索、整理和准备数据集，满足要求后，才能将数据集发布到数据湖中。数据整理通常用于不太正式的分析场景。数据集准备好后可用于执行转换操作和下游的机器学习操作。

无代码的敏捷数据准备

公民数据集成商花费超过 60% 的时间来查找和准备数据。他们希望以无代码的方式进行操作，以提高操作效率。允许公民数据集成商使用已知工具（如 Power Query Online）丰富、塑造和发布数据，从而极大地提高了工作效率。 Azure Data Factory中的整理使熟悉的Power Query在线混搭编辑器能够让公民数据集成商快速修复错误、标准化数据，并生成高质量的数据来支持业务决策。

数据验证和探索

以无代码方式浏览数据，删除任何离群值和异常情况，并将其与形状相符合，便于快速分析。

受支持的源

连接器	数据格式	身份验证类型
Azure Blob Storage	CSV、Parquet、Excel	帐户密钥、服务主体、MSI
Azure Data Lake Storage Gen2	CSV、Parquet、Excel	帐户密钥、服务主体、MSI
Azure SQL Database	-	SQL身份验证、MSI、服务主体
Azure Synapse Analytics	-	SQL身份验证、MSI、服务主体

混搭编辑器

创建Power Query活动时，所有源数据集都将成为数据集查询，并放置在 ADFResource 文件夹中。默认情况下，UserQuery 将指向第一个数据集查询。所有转换都应在 UserQuery 上完成，因为不支持对数据集查询进行更改，也不会将其保留。当前不支持重命名、添加和删除查询。

目前并非所有Power Query M 函数都支持数据整理，尽管在创作期间可用。生成 Power Query 活动时，如果不支持某个函数，系统会提示以下错误消息：

The Power Query Spark Runtime does not support the function

有关支持的转换的详细信息，请参阅 Power Query 数据整理函数。

了解如何创建数据整理Power Query混合。

Last updated on 2026-04-22