使用 Python 脚本 任务运行 Python 文件。
在开始之前,必须将 Python 脚本上传到配置作业的用户可以访问的位置。 Databricks 建议对 Python 脚本使用工作区文件。 请参阅什么是工作区文件?
备注
作业 UI 根据其他配置的设置动态显示选项。
Databricks 建议不要使用 DBFS 根或装载来存储代码或数据。 相反,可以将 Python 脚本迁移到工作区文件或卷,或使用 URI 访问云对象存储。
要开始流,请配置 Python script
任务:
在作业 UI 中导航到“任务”选项卡。
在 “类型 ”下拉菜单中,选择
Python script
。
在“源”下拉菜单中,使用以下选项之一选择 Python 脚本的位置。
使用 工作区 配置使用工作区文件存储的 Python 脚本。
单击“路径”字段。 “选择 Python 文件”对话框随即出现。
浏览到 Python 脚本,单击以突出显示该文件,然后单击“确认”。
备注
可以使用此选项在 Databricks Git 文件夹中存储的 Python 脚本上配置任务。 Databricks 建议使用“Git 提供程序”选项和远程 Git 存储库来对使用作业计划的资产进行版本控制。
使用 DBFS/ADLS 配置存储在卷、云对象存储位置或 DBFS 根中的 Python 脚本。
Databricks 建议将 Python 脚本存储在 Unity Catalog 卷或云对象存储中。
在“路径”字段中,输入 Python 脚本的 URI。 例如,/Volumes/path/to/script.py
或 abfss://container-name@storage-account-name.dfs.core.chinacloudapi.cn/path/to/script.py
。
使用 Git 提供程序 配置存储在远程 Git 存储库中的 Python 脚本。
UI 显示的选项取决于你是否已在其他地方配置 Git 提供程序。 只有一个远程 Git 存储库可用于作业中的所有任务。 请参阅 将 Git 与作业配合使用。
配置 git 引用后会显示“路径”字段。
输入 Python 脚本的相对路径,例如 etl/bronze/ingest.py
。
重要
输入相对路径时,请不要以 /
或 ./
开头。 例如,如果要访问的 Python 代码的绝对路径为 /etl/bronze/ingest.py
,请在“路径”etl/bronze/ingest.py
字段中输入 。
使用 计算 选择或配置支持脚本中逻辑的群集。
对于所有其他计算配置,请单击“依赖库”下的“+ 添加”。 此时会显示“添加依赖库”对话框。
- 可以选择现有库或上传新库。
- 只能使用存储在计算配置支持的位置中的库。 请参阅 Python 库支持。
- 每个 库源 具有不同的流,用于选择或上传库。 请参阅 资源库。
(可选)将 参数 配置为作为 CLI 参数传递给 Python 脚本的字符串列表。 请参阅 “配置任务参数”。
单击“保存任务”。