Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
适用于:
Azure 数据工厂
Azure Synapse Analytics
在 Azure 数据工厂或 Synapse 分析中,HDInsight 流处理活动管道在您自己的或按需的 HDInsight 群集上执行 Hadoop 流处理程序。 本文基于数据转换活动一文,它概述了数据转换和受支持的转换活动。
若要了解详细信息,请在阅读本文之前阅读有关
使用 UI 将 HDInsight 流式传输活动添加到管道
要将 HDInsight 流式处理活动用于管道,请完成以下步骤:
在管道的“活动”窗格中搜索“Streaming”,然后将“Streaming”活动拖到管道画布上。
在画布上选择新的流式传输活动(如果尚未选择)。
选择“HDI 群集”选项卡以选择或创建新的链接到 HDInsight 群集的服务,该群集将用于执行流式传输活动。
选择 File 选项卡以指定流式处理作业的映射器和化简器名称,并选择或创建一个新的链接服务,该服务关联到用于存储作业的映射器、化简器、输入和输出文件的 Azure 存储 帐户。 还可以配置高级详细信息,包括调试配置以及传递给作业的参数。
JSON 示例
{
"name": "Streaming Activity",
"description": "Description",
"type": "HDInsightStreaming",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"mapper": "MyMapper.exe",
"reducer": "MyReducer.exe",
"combiner": "MyCombiner.exe",
"fileLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"filePaths": [
"<containername>/example/apps/MyMapper.exe",
"<containername>/example/apps/MyReducer.exe",
"<containername>/example/apps/MyCombiner.exe"
],
"input": "wasb://<containername>@<accountname>.blob.core.chinacloudapi.cn/example/input/MapperInput.txt",
"output": "wasb://<containername>@<accountname>.blob.core.chinacloudapi.cn/example/output/ReducerOutput.txt",
"commandEnvironment": [
"CmdEnvVarName=CmdEnvVarValue"
],
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
语法详细信息
| 属性 | 描述 | 必需 |
|---|---|---|
| 名称 | 活动名称 | 是 |
| 描述 | 描述活动用途的文本 | 否 |
| 类型 | 对于 Hadoop 流式处理活动,活动类型是 HDInsightStreaming | 是 |
| 链接服务名称 | 引用注册为链接服务的 HDInsight 群集。 若要了解此链接服务,请参阅计算链接服务一文。 | 是 |
| 映射器 | 指定映射器可执行文件的名称 | 是 |
| 减速器 | 指定化简器可执行文件的名称 | 是 |
| 合路器 | 指定合并器可执行文件的名称 | 否 |
| fileLinkedService | 对用于存储要执行的 Mapper、Combiner 和 Reducer 程序的 Azure 存储 链接的服务的引用。 此处仅支持 Azure Blob 存储 和 ADLS Gen2 链接服务。 如果未指定此链接服务,将使用 HDInsight 链接服务中定义的Azure 存储链接服务。 | 否 |
| 文件路径 | 提供一个路径数组,指向 fileLinkedService 引用的 Azure 存储 中存储的 Mapper、Combiner 和 Reducer 程序。 此路径区分大小写。 | 是 |
| 输入 | 指定映射器输入文件的 WASB 路径。 | 是 |
| 输出 | 指定化简器输出文件的 WASB 路径。 | 是 |
| 获取调试信息 | 指定何时将日志文件复制到由 scriptLinkedService 指定的 HDInsight 群集(或)使用的Azure 存储。 允许的值:无(None)、总是(Always)或失败(Failure)。 默认值:无。 | 否 |
| 参数 | 指定 Hadoop 作业的参数数组。 参数以命令行参数的形式传递到每个任务。 | 否 |
| 定义 | 在 Hive 脚本中指定参数作为键/值对,以供引用。 | 否 |
相关内容
参阅以下文章了解如何以其他方式转换数据: