使用 Python 脚本任务运行 Python 文件。
在开始之前,必须将 Python 脚本上传到配置作业的用户可以访问的位置。 Databricks 建议对 Python 脚本使用工作区文件。 请参阅什么是工作区文件?。
备注
作业 UI 根据其他配置的设置动态显示选项。
Databricks 建议不要使用 DBFS 根或装载来存储代码或数据。 相反,可以将 Python 脚本迁移到工作区文件或卷,或使用 URI 访问云对象存储。
要开始流,请配置 Python script
任务:
- 在作业 UI 中导航到“任务”选项卡。
- 在“类型”下拉菜单中,选择“
Python script
”。
在“源”下拉菜单中,使用以下选项之一选择 Python 脚本的位置。
使用工作区来配置使用工作区文件存储的 Python 脚本。
- 单击“路径”字段。 “选择 Python 文件”对话框随即出现。
- 浏览到 Python 脚本,单击以突出显示该文件,然后单击“确认”。
备注
可以使用此选项在 Databricks Git 文件夹中存储的 Python 脚本上配置任务。 Databricks 建议使用“Git 提供程序”选项和远程 Git 存储库来对使用作业计划的资产进行版本控制。
使用 DBFS/ADLS 配置存储在卷、云对象存储位置或 DBFS 根中的 Python 脚本。
Databricks 建议将 Python 脚本存储在 Unity Catalog 卷或云对象存储中。
在“路径”字段中,输入 Python 脚本的 URI。 例如,/Volumes/path/to/script.py
或 abfss://container-name@storage-account-name.dfs.core.chinacloudapi.cn/path/to/script.py
。
使用 Git 提供程序配置存储在远程 Git 存储库中的 Python 脚本。
UI 显示的选项取决于你是否已在其他地方配置 Git 提供程序。 只有一个远程 Git 存储库可用于作业中的所有任务。 请参阅将 Git 与作业配合使用。
配置 git 引用后会显示“路径”字段。
输入 Python 脚本的相对路径,例如 etl/bronze/ingest.py
。
重要
输入相对路径时,请不要以 /
或 ./
开头。 例如,如果要访问的 Python 代码的绝对路径为 /etl/bronze/ingest.py
,请在“路径”字段中输入 etl/bronze/ingest.py
。
- 使用计算选择或配置支持脚本中逻辑的群集。
- 对于所有其他计算配置,请单击“依赖库”下的“+ 添加”。 此时会显示“添加依赖库”对话框。
- 可以选择现有库或上传新库。
- 只能使用存储在计算配置支持的位置中的库。 请参阅 Python 库支持。
- 每个库源具有不同的流,用于选择或上传库。 请参阅库。
- (可选)将参数配置为作为 CLI 参数传递给 Python 脚本的字符串列表。 请参阅配置任务参数。
- 单击“保存任务”。