配置和编辑 Databricks 任务

本文重点介绍使用“工作流”工作区 UI 创建、配置和编辑任务的操作说明。

Azure Databricks 将任务作为 Databricks 作业的组件进行管理。 每个作业都有一个或多个任务。 可以通过在工作区 UI 中配置第一个任务来创建新作业。 要配置新作业,请参阅配置和编辑 Databricks 作业

每个任务都有一个用于运行任务逻辑的关联计算资源。 如果使用无服务器,Azure Databricks 会配置计算资源。 如果不使用无服务器,请参阅配置作业的计算

Azure Databricks 还有可用于任务配置的其他入口点和工具,包括以下所列:

创建或配置任务

要使用工作区 UI 编辑现有任务或添加新任务,请按照以下步骤选择一个现有的作业:

  1. 单击边栏中 工作流图标工作流”。

  2. 在“名称”列中单击作业名称。

  3. 单击“任务”选项卡。此时会显示任务图。

  4. 要编辑任务,请单击任务名称。 任务配置显示在任务图下方。

  5. 要添加任务,请单击 添加任务按钮

任务的类型

配置选项和说明因具体任务而异。 可使用的任务类型如下:

克隆任务

克隆任务可复制现有任务的所有配置,包括上游依赖项。

要克隆任务,请执行以下操作:

  1. 在任务图中选择任务。

  2. 单击 “克隆任务”按钮

  3. 指定“克隆的任务名称”,然后单击“克隆”

删除任务

要删除任务,请执行以下操作:

  1. 在任务图中选择任务。

  2. 单击 Trash 并选择“删除任务”

复制任务路径

某些任务类型(例如笔记本任务)允许复制任务源代码的路径:

  1. 单击“任务”选项卡。

  2. 选择包含要复制的路径的任务。

  3. 单击任务路径旁的作业复制图标,将路径复制到剪贴板。

高级任务设置

以下高级设置用于控制失败任务的重试策略和无响应任务的超时策略。

注意

通知可以在任务级别设置,也可以在作业级别设置。 请参阅为作业添加通知

设置重试策略

任务重试的默认设置取决于作业配置。 对于大多数配置,默认设置不会在任务失败时重试任何任务。

连续作业会使用指数退避重试策略。 请参阅如何处理连续作业的故障?

若要配置一个策略来确定失败任务运行的重试时间和次数,请单击“重试”旁边的“+ 添加”

重试间隔以失败运行开始时间与随后的重试运行开始时间之间相隔的毫秒数计算。

注意

如果同时配置“超时”和“重试”,则超时将应用于每次重试。

为任务运行持续时间或流式处理积压工作指标配置阈值

重要

Databricks 作业的流式处理可观测性为公共预览版

可以为任务运行持续时间或流式处理积压工作指标配置可选阈值。 若要配置持续时间阈值或流式处理指标阈值,请单击任务配置面板中 指标阈值。

若要配置任务工期阈值(包括任务的预期和最大完成时间),请在 指标 下拉菜单中选择 运行持续时间。 在“警告”字段中输入持续时间,即可配置任务的预期完成时间。 如果任务运行超过此阈值,则会触发事件。 要配置任务的最长完成时间,请在“超时”字段中输入最长持续时间。 如果作业未在此时间内完成,则 Azure Databricks 会将其状态设置为“已超时”。

若要为流式积压工作指标配置阈值,请在 指标 下拉菜单中选择该指标,并输入阈值的值。 要了解流式处理源支持的特定指标,请参阅查看流式处理任务的指标

在“警告”字段中输入持续时间,即可配置任务的预期完成时间。 如果任务超过此阈值,则会触发事件。 可以使用此事件在任务运行缓慢时发出通知。 请参阅为慢速作业配置通知

要配置任务的最长完成时间,请在“超时”字段中输入最长持续时间。 如果作业未在此时间内完成,则 Azure Databricks 会将其状态设置为“已超时”。

如果由于超出阈值而触发某个事件,则可以使用该事件发送通知。 请参阅为慢速作业配置通知