转换Azure 数据工厂和Azure Synapse Analytics中的数据

适用于: Azure 数据工厂 Azure Synapse Analytics

概述

本文介绍Azure 数据工厂和 Synapse 管道中的数据转换活动,可用于大规模将原始数据转换为预测和见解。 转换活动在计算环境中执行,例如Azure Databricks或Azure HDInsight。 其提供了相关文章链接,内附各转换活动的详细信息。

该服务支持以下数据转换活动,这些活动可单独添加到管道,还可与其他活动关联在一起。

使用数据流在Azure 数据工厂和Azure Synapse Analytics中进行原生转换

映射数据流

在Azure 数据工厂和Azure Synapse中,映射数据流是直观设计的数据转换。 使用数据流,数据工程师可以开发图形化数据转换逻辑,无需编写代码。 生成的数据流将作为使用横向扩展 Spark 群集的管道中的活动执行。 可以通过服务内现有的计划、控制、流和监视功能,来执行数据流活动。 有关详细信息,请参阅映射数据流

数据整理

Azure 数据工厂中的Power Query支持云规模数据整理,这使你可以以迭代方式在云规模上执行无代码数据准备。 数据整理与 Power Query Online 集成,并通过 spark 执行使 Power Query M 函数可用于云规模的数据整理。 有关详细信息,请参阅 data wrangling in Azure 数据工厂

注意

Power Query目前仅在Azure 数据工厂中受支持,不在Azure Synapse中。 有关每个服务中支持的特定功能列表,请参阅 Azure 数据工厂 和 Azure Synapse Analytics 管道中的可用功能

外部转换

(可选)可以手动编写代码转换并自行管理外部计算环境。

HDInsight Hive 活动

管道中的 HDInsight Hive 活动在用户自有或按需的 Windows/Linux 平台 HDInsight 群集上执行 Hive 查询。 有关此活动的详细信息,请参阅 Hive 活动一文。

HDInsight Pig 活动

管道中的 HDInsight Pig 活动在你自己的或按需的 Windows/Linux 环境下的 HDInsight 群集上执行 Pig 查询。 有关此活动的详细信息,请参阅 Pig 活动一文。

HDInsight MapReduce 活动

管道中的 HDInsight MapReduce 活动在你自己的或按需的 Windows 或 Linux 基于的 HDInsight 群集上执行 MapReduce 程序。 有关此活动的详细信息,请参阅 MapReduce 活动一文。

HDInsight Streaming 活动

管道中的 HDInsight 流式处理活动在您自己的或按需创建的基于 Windows 或 Linux 的 HDInsight 群集上执行 Hadoop 流式处理程序。 有关此活动的详细信息,请参阅 HDInsight Streaming 活动

HDInsight Spark 活动

管道中的 HDInsight Spark 活动在自己的 HDInsight 群集上执行 Spark 程序。 有关详细信息,请参阅 使用 Azure 数据工厂 或 Azure Synapse Analytics 调用 Spark 程序

存储过程活动

可以使用数据工厂管道中的SQL Server存储过程活动在以下数据存储之一中调用存储过程:Azure SQL 数据库、Azure Synapse Analytics、SQL Server企业中的数据库或Azure VM。 有关详细信息,请参阅存储过程活动一文。

Databricks Notebook 活动

在管道中,Azure Databricks笔记本活动在您自己的Azure Databricks工作区中运行一个Databricks笔记本。 Azure Databricks是用于运行 Apache Spark 的托管平台。 请参阅通过运行 Databricks Notebook 转换数据

Databricks Jar 活动

在管道中,Azure Databricks Jar 活动会在您的 Azure Databricks 群集中运行 Spark Jar。 Azure Databricks是用于运行 Apache Spark 的托管平台。 请参阅 通过在 Azure Databricks 中运行 Jar 活动来转换数据

Databricks Python 活动

管道中的Azure Databricks Python活动在Azure Databricks群集中运行Python文件。 Azure Databricks是用于运行 Apache Spark 的托管平台。 在 Azure Databricks 中运行 Python 活动来转换数据。查看详细信息

自定义活动

如果需要采用数据工厂不支持的方式转换数据,可以使用自己的数据处理逻辑创建自定义活动,并在管道中使用该活动。 可以将自定义.NET活动配置为使用Azure Batch服务或Azure HDInsight群集运行。 有关详细信息,请参阅使用自定义活动文章。

可以创建一项自定义活动,在安装了 R 的 HDInsight 群集上运行 R 脚本。 请参阅 使用 Azure 数据工厂 和 Synapse 管道运行 R 脚本

计算环境

为计算环境创建链接服务,并在定义转换活动时使用该服务。 有两种受支持的计算环境类型。

  • 按需服务:在此情况下,计算环境由服务商完全托管。 作业提交到进程数据前,该服务会自动创建计算环境,作业完成后则自动将其删除。 针对作业执行、群集管理和启动操作,可以配置和控制按需计算环境的粒度设置。
  • 自定义:此情况下,可将自己的计算环境(例如 HDInsight 群集)注册为关联服务。 计算环境由用户进行管理,该服务使用它执行活动。

有关受支持的计算服务,请参阅计算链接服务一文。

请参阅以下使用转换活动的示例教程:教程:使用 Spark 转换数据