通过运行 Databricks 任务来转换数据

适用于:Azure 数据工厂 Azure Synapse Analytics

管道中的 Azure Databricks 作业活动(预览版)将在 Azure Databricks 工作区中运行 Databricks 作业,包括无服务器作业。 本文基于数据转换活动一文,它概述了数据转换和受支持的转换活动。 Azure Databricks 是一个用于运行 Apache Spark 的托管平台。

可以直接通过 Azure 数据工厂工作室用户界面创建 Databricks 作业。

重要

Azure Databricks 作业活动目前处于预览状态。 此信息与在发布前可能进行大幅修改的预发布产品相关。 对于此处提供的信息,Azure 不作任何明示或暗示的保证。

使用 UI 向管道添加 Azure Databricks 的作业活动

若要在管道中使用 Azure Databricks 的作业活动,请完成以下步骤:

  1. 在管道“活动”窗格中搜索“作业”,然后将作业活动拖放到管道画布中

  2. 在画布上选择新的作业活动(如果尚未选择)。

  3. 选择 “Azure Databricks ”选项卡以选择或创建新的执行作业活动的 Azure Databricks 链接服务。

    作业界面的屏幕截图,突出显示了“Azure Databricks”选项卡。

  4. 选择 “设置” 选项卡并指定要在 Azure Databricks 上执行的作业、要传递给作业的可选基参数,以及要安装在群集上以执行作业的任何其他库。

    作业活动的 UI 的屏幕截图,其中突出显示了“设置”选项卡。

Databricks 作业任务定义

下面是 Databricks 作业活动的示例 JSON 定义:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksJob",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "jobID": "012345678910112",
            "jobParameters": {
                "testParameter": "testValue"
            },
        }
    }
}

Databricks 作业活动属性

下表描述了 JSON 定义中使用的 JSON 属性:

资产 DESCRIPTION 必选
姓名 管道中活动的名称。 是的
描述 描述活动用途的文本。
类型 对于 Databricks 作业活动,活动类型是 DatabricksJob。 是的
链接服务名称 用于运行 Databricks 作业的 Databricks 链接服务的名称。 若要了解此链接服务,请参阅计算链接服务一文。 是的
jobId 要在 Databricks 工作区中运行的作业的 ID。 是的
任务参数 一个键/值对的数组。 作业参数可用于运行每个活动。 如果作业采用未指定的参数,将使用作业中的默认值。 有关参数的更多信息,请参阅 Databricks 作业

在作业和管道之间传递参数

可以在 Databricks 活动中使用 jobParameters 属性将参数传递给作业。

备注

仅自承载 IR 版本 5.52.0.0 或更高版本支持作业参数。