Compartilhar via

在 Azure 数据工厂 或 Synapse Analytics 中使用 Hadoop 流式处理活动转换数据

适用于: Azure 数据工厂 Azure Synapse Analytics

在 Azure 数据工厂或 Synapse 分析中,HDInsight 流处理活动管道在您自己的或按需的 HDInsight 群集上执行 Hadoop 流处理程序。 本文基于数据转换活动一文,它概述了数据转换和受支持的转换活动。

若要了解详细信息,请在阅读本文之前阅读有关 Azure 数据工厂Synapse Analytics1 的简介文章,并执行 Tutorial:转换数据

使用 UI 将 HDInsight 流式传输活动添加到管道

要将 HDInsight 流式处理活动用于管道,请完成以下步骤:

  1. 在管道的“活动”窗格中搜索“Streaming”,然后将“Streaming”活动拖到管道画布上。

  2. 在画布上选择新的流式传输活动(如果尚未选择)。

  3. 选择“HDI 群集”选项卡以选择或创建新的链接到 HDInsight 群集的服务,该群集将用于执行流式传输活动。

    显示流媒体活动的界面。

  4. 选择 File 选项卡以指定流式处理作业的映射器和化简器名称,并选择或创建一个新的链接服务,该服务关联到用于存储作业的映射器、化简器、输入和输出文件的 Azure 存储 帐户。 还可以配置高级详细信息,包括调试配置以及传递给作业的参数。

    显示用于流媒体活动的“文件”选项卡的用户界面。

JSON 示例

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.chinacloudapi.cn/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.chinacloudapi.cn/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

语法详细信息

属性 描述 必需
名称 活动名称
描述 描述活动用途的文本
类型 对于 Hadoop 流式处理活动,活动类型是 HDInsightStreaming
链接服务名称 引用注册为链接服务的 HDInsight 群集。 若要了解此链接服务,请参阅计算链接服务一文。
映射器 指定映射器可执行文件的名称
减速器 指定化简器可执行文件的名称
合路器 指定合并器可执行文件的名称
fileLinkedService 对用于存储要执行的 Mapper、Combiner 和 Reducer 程序的 Azure 存储 链接的服务的引用。 此处仅支持 Azure Blob 存储ADLS Gen2 链接服务。 如果未指定此链接服务,将使用 HDInsight 链接服务中定义的Azure 存储链接服务。
文件路径 提供一个路径数组,指向 fileLinkedService 引用的 Azure 存储 中存储的 Mapper、Combiner 和 Reducer 程序。 此路径区分大小写。
输入 指定映射器输入文件的 WASB 路径。
输出 指定化简器输出文件的 WASB 路径。
获取调试信息 指定何时将日志文件复制到由 scriptLinkedService 指定的 HDInsight 群集(或)使用的Azure 存储。 允许的值:无(None)、总是(Always)或失败(Failure)。 默认值:无。
参数 指定 Hadoop 作业的参数数组。 参数以命令行参数的形式传递到每个任务。
定义 在 Hive 脚本中指定参数作为键/值对,以供引用。

参阅以下文章了解如何以其他方式转换数据: