作业的笔记本任务
使用笔记本任务部署 Databricks 笔记本。
配置笔记本任务
在开始之前,必须让笔记本位于配置作业的用户可以访问的位置。
注意
作业 UI 根据其他配置的设置动态显示选项。
要开始流,请配置 Notebook
任务:
- 在作业 UI 中导航到“任务”选项卡。
- 在“类型”下拉菜单中,选择“
Notebook
”。
配置源
在“源”下拉菜单中,使用以下选项之一选择 Python 脚本的位置。
工作区
通过完成以下步骤,使用工作区配置存储在工作区中的笔记本:
- 单击“路径”字段。 此时会显示“选择笔记本”对话框。
- 浏览到笔记本,单击以突出显示文件,然后单击“确认”。
注意
可以使用此选项为 Databricks Git 文件夹中存储的笔记本配置任务。 Databricks 建议使用“Git 提供程序”选项和远程 Git 存储库对使用作业计划的资产进行版本控制。
Git 提供程序
使用 Git 提供程序在远程 Git 存储库中配置笔记本。
UI 显示的选项取决于你是否已在其他地方配置 Git 提供程序。 只有一个远程 Git 存储库可用于作业中的所有任务。 请参阅将 Git 与作业配合使用。
重要
从远程 Git 存储库运行的 Azure Databricks 作业创建的笔记本是临时的,你不能依赖它们来跟踪 MLflow 运行、试验或模型。 从作业创建笔记本时,请使用工作区 MLflow 试验(而不是笔记本 MLflow 试验),并在运行任何 MLflow 跟踪代码之前在工作区笔记本中调用 mlflow.set_experiment("/path/to/experiment")
。 如需更多详细信息,请参阅防止 MLflow 试验中出现数据丢失。
配置 git 引用后会显示“路径”字段。
输入笔记本的相对路径,例如 etl/bronze/ingest.py
。
重要
输入相对路径时,请不要以 /
或 ./
开头。 例如,如果要访问的笔记本的绝对路径为 /etl/bronze/ingest.py
,请在“路径”字段中输入 etl/bronze/ingest.py
。
配置计算库和依赖库
- 使用计算选择或配置支持笔记本中逻辑的群集。
- 对于所有其他计算配置,请单击“依赖库”下的“+ 添加”。 此时会显示“添加依赖库”对话框。
- 可以选择现有库或上传新库。
- 只能使用存储在计算配置支持的位置中的库。 请参阅 Python 库支持。
- 每个库源具有不同的流,用于选择或上传库。 请参阅库。
完成作业配置
- (可选)使用
dbutils.widgets
将参数配置为可在笔记本中访问的键值对。 请参阅配置任务参数。 - 单击“保存任务”。
限制
笔记本单元格输出总计(所有笔记本单元格的合并输出)存在 20MB 的大小限制。 此外,单个单元格输出存在 8MB 的大小限制。 如果单元格输出大小总计超出 20MB,或者单个单元格的输出大于 8MB,则会取消该运行并将其标记为失败。
如果不知道如何查找接近或超出限制的单元格,请针对通用群集运行该笔记本,并使用该笔记本自动保存方法。