运行 CLI(旧版)
重要
本文档已过时,将来可能不会更新。
此信息适用于旧版 Databricks CLI 0.18 及更低版本。 Databricks 建议改用较新的 Databricks CLI 0.205 或更高版本。 请参阅什么是 Databricks CLI?。 若要查找你的 Databricks CLI 的版本,请运行 databricks -v
。
若要从 Databricks CLI 版本 0.18 或更低版本迁移到 Databricks CLI 版本 0.205 或更高版本,请参阅 Databricks CLI 迁移。
通过将 Databricks 作业运行 CLI 子命令追加到 databricks runs
后面来运行 Databricks 作业运行 CLI 子命令,通过将 Databricks 作业 CLI 子命令追加到 databricks jobs
后面来运行 Databricks 作业 CLI 子命令。 有关 Databricks 作业 CLI 子命令,请参阅作业 CLI(旧版)。 这些子命令都调用作业 API 和作业 API 2.0。
重要
Databricks 作业运行 CLI 支持调用两个版本的 Databricks 作业 REST API:2.1 和 2.0 版。 (作业运行功能是作业 REST API 的一部分。 ) 2.1 版增加了对多任务作业编排的支持;请参阅创建并运行 Azure Databricks 作业和从作业 API 2.0 更新到 2.1。 Databricks 建议调用 2.1 版,除非有依赖 2.0 版且无法迁移的旧脚本。
除非另有说明,否则本文中描述的编程行为同样适用于 2.1 和 2.0 版。
备注
如果在发出作业运行 CLI 请求时收到 500 级错误,Databricks 建议重试请求最多 10 分钟(每次重试至少间隔 30 秒)。
要将 Databricks 作业运行 CLI(和作业 CLI)设置为调用作业 REST API 2.1,请执行以下操作:
执行下列操作之一:
- 运行命令
databricks jobs configure --version=2.1
。 这会将jobs-api-version = 2.1
设置添加到 Unix、Linux 或 macOS 上的~/.databrickscfg
文件,或 Windows 上的%USERPROFILE%\.databrickscfg
。 默认情况下,所有作业运行 CLI(和作业 CLI)子命令都将调用作业 REST API 2.1。 - 手动将
jobs-api-version = 2.1
设置添加到 Unix、Linux 或 macOS 上的~/.databrickscfg
文件,或 Windows 上的%USERPROFILE%\.databrickscfg
。 默认情况下,所有作业运行 CLI(和作业 CLI)子命令都将调用作业 REST API 2.1。 - 附加选项
--version=2.1
(例如databricks runs list --version=2.1
)以指示作业运行 CLI 仅为该调用调用作业 REST API 2.1。
如果未执行上述操作,则作业运行 CLI(和作业 CLI)将默认调用作业 REST API 2.0。
- 运行命令
要将 Databricks 作业运行 CLI(和作业 CLI)设置为调用作业 REST API 2.0,请执行以下操作:
- 使用低于 0.16.0 的 Databricks CLI 版本,或
- 将 CLI 更新到 0.16.0 或更高版本,然后执行以下任一操作:
- 运行
databricks jobs configure --version=2.0
命令。 这会将jobs-api-version = 2.0
设置添加到 Unix、Linux 或 macOS 上的~/.databrickscfg
文件,或 Windows 上的%USERPROFILE%\.databrickscfg
。 默认情况下,所有作业运行 CLI(和作业 CLI)子命令都将调用作业 REST API 2.0。 - 手动将
jobs-api-version = 2.0
设置添加到 Unix、Linux 或 macOS 上的~/.databrickscfg
文件,或 Windows 上的%USERPROFILE%\.databrickscfg
。 默认情况下,所有作业运行 CLI(和作业 CLI)子命令都将调用作业 REST API 2.0。 - 附加选项
--version=2.1
(例如databricks runs list --version=2.0
)以指示作业运行 CLI 仅为该调用调用作业 REST API 2.0。
- 运行
如果未执行上述操作,则作业运行 CLI(和作业 CLI)将默认调用作业 REST API 2.0。
databricks runs --help
Usage: databricks runs [OPTIONS] COMMAND [ARGS]...
Utility to interact with jobs runs.
Options:
-v, --version [VERSION]
--debug Debug mode. Shows full stack trace on error.
--profile TEXT CLI connection profile to use. The default profile is
"DEFAULT".
-h, --help Show this message and exit.
Commands:
cancel Cancels the specified run.
get Gets the metadata about a run in JSON form.
get-output Gets the output of a run.
list Lists job runs.
submit Submits a one-time run.
若要显示使用情况文档,请运行 databricks runs cancel --help
。
databricks runs cancel --run-id 119
{}
若要显示使用情况文档,请运行 databricks runs get --help
。
databricks runs get --run-id 2785782
请参阅从作业 API 2.0 更新到 2.1 中的运行获取。
{
"job_id": 1269263,
"run_id": 2785782,
"number_in_job": 1111,
"original_attempt_run_id": 2785782,
"state": {
"life_cycle_state": "TERMINATED",
"result_state": "SUCCESS",
"state_message": ""
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/notebooks/my-notebook.ipynb"
}
},
"cluster_spec": {
"new_cluster": {
"spark_version": "8.1.x-scala2.12",
"node_type_id": "Standard_F16s",
"enable_elastic_disk": true,
"azure_attributes": {
"availability": "ON_DEMAND_AZURE"
},
"num_workers": 8
}
},
"cluster_instance": {
"cluster_id": "1234-567890-abcd123",
"spark_context_id": "1234567890123456789"
},
"start_time": 1620947196985,
"setup_duration": 36000,
"execution_duration": 119000,
"cleanup_duration": 3000,
"end_time": 1620947355499,
"trigger": "ONE_TIME",
"creator_user_name": "someone@example.com",
"run_name": "my-notebook-run",
"run_page_url": "https://adb-1234567890123456.7.databricks.azure.cn/?o=1234567890123456#job/1269263/run/1111",
"run_type": "JOB_RUN",
"attempt_number": 0
}
若要显示使用情况文档,请运行 databricks runs get-output --help
。
备注
当 notebook_task
从对 dbutils.notebook.exit()
的调用返回值时,Databricks 会将返回值限制为前 5 MB 的数据。 若要返回更大的结果,可将作业结果存储在云存储服务中。
databricks runs get-output --run-id 2785782
请参阅从作业 API 2.0 更新到 2.1 中的运行获取输出。
{
"metadata": {
"job_id": 1269263,
"run_id": 2785782,
"number_in_job": 1111,
"original_attempt_run_id": 2785782,
"state": {
"life_cycle_state": "TERMINATED",
"result_state": "SUCCESS",
"state_message": ""
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/notebooks/my-notebook.ipynb"
}
},
"cluster_spec": {
"new_cluster": {
"spark_version": "8.1.x-scala2.12",
"node_type_id": "Standard_F16s",
"enable_elastic_disk": true,
"azure_attributes": {
"availability": "ON_DEMAND_AZURE"
},
"num_workers": 8
}
},
"cluster_instance": {
"cluster_id": "1234-567890-abcd123",
"spark_context_id": "1234567890123456789"
},
"start_time": 1620947196985,
"setup_duration": 36000,
"execution_duration": 119000,
"cleanup_duration": 3000,
"end_time": 1620947355499,
"trigger": "ONE_TIME",
"creator_user_name": "someone@example.com",
"run_name": "my-notebook-run",
"run_page_url": "https://adb-1234567890123456.7.databricks.azure.cn/?o=1234567890123456#job/1269263/run/1111",
"run_type": "JOB_RUN",
"attempt_number": 0
},
"notebook_output": {}
}
若要显示使用情况文档,请运行 databricks runs list --help
。
databricks runs list --output JSON
请参阅从作业 API 2.0 更新到 2.1 中的运行列表。
{
"runs": [
{
"job_id": 1269263,
"run_id": 2785782,
"number_in_job": 1111,
"original_attempt_run_id": 2785782,
"state": {
"life_cycle_state": "TERMINATED",
"result_state": "SUCCESS",
"state_message": ""
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/notebooks/my-notebook.ipynb"
}
},
"cluster_spec": {
"new_cluster": {
"spark_version": "8.1.x-scala2.12",
"node_type_id": "Standard_F16s",
"enable_elastic_disk": true,
"azure_attributes": {
"availability": "ON_DEMAND_AZURE"
},
"num_workers": 8
}
},
"cluster_instance": {
"cluster_id": "1234-567890-abcd123",
"spark_context_id": "1234567890123456789"
},
"start_time": 1620947196985,
"setup_duration": 36000,
"execution_duration": 119000,
"cleanup_duration": 3000,
"end_time": 1620947355499,
"trigger": "ONE_TIME",
"creator_user_name": "someone@example.com",
"run_name": "my-notebook-run",
"run_page_url": "https://adb-1234567890123456.7.databricks.azure.cn/?o=1234567890123456#job/1269263/run/1111",
"run_type": "JOB_RUN",
"attempt_number": 0
},
...
],
"has_more": false
}
如果 has_more
返回 true
,则可以获得有关其他运行的信息。 使用 --offset
选项可返回与最近运行相关的运行的信息。 例如,若要返回从第十个最近运行开始的信息,请指定 --offset 10
。
使用 --limit
选项可返回有关固定数量的运行的信息。 例如,若要返回最多接下来 5 次运行的信息,请指定 --limit 5
。 最多可以指定 1000 次运行。 如果未指定,则默认值为 20。
若要显示使用情况文档,请运行 databricks runs submit --help
。
databricks runs submit --json-file submit-run.json
请参阅从作业 API 2.0 更新到 2.1 中的运行提交。
submit-run.json
:
{
"run_name": "my-spark-run",
"new_cluster": {
"spark_version": "8.1.x-scala2.12",
"node_type_id": "Standard_F16s",
"enable_elastic_disk": true,
"azure_attributes": {
"availability": "ON_DEMAND_AZURE"
},
"num_workers": 8
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
{
"run_id": 123
}