注释
此信息适用于 Databricks CLI 版本 0.205 及更高版本。 Databricks CLI 目前处于公共预览阶段。
Databricks CLI 的使用须遵守 Databricks 许可和 Databricks 隐私声明,包括任何数据使用规定。
pipelines
Databricks CLI 中的命令组包含两组功能。 第一个集允许管理管道项目及其工作流。 第二组允许创建、编辑、删除、启动和查看 Databricks 中管道对象的详细信息。
有关管道的信息,请参阅 Lakeflow Spark 声明性管道。
管理管道项目
以下命令允许管理项目中的管道。
databricks 管道部署
通过将项目中定义的所有文件上传到目标工作区,以及创建或更新工作区中定义的管道来部署管道。
databricks pipelines deploy [flags]
论据
没有
选项
--auto-approve
跳过部署过程可能需要的交互式审批
--fail-on-active-runs
在部署过程中如果存在正在运行的管道,则操作会失败。
--force-lock
强制获取部署锁
databricks 管道销毁
销毁管道项目。
databricks pipelines destroy [flags]
论据
没有
选项
--auto-approve
跳过删除管道时的交互式审批
--force-lock
强制获取部署锁
databricks 管道干运行
验证管道图形结构的正确性,标识为 KEY. 不具体化或发布任何数据集。
databricks pipelines dry-run [flags] [KEY]
论据
KEY
要进行试运行的管道的唯一名称,如其 YAML 文件中所定义。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。
选项
--no-wait
不要等待运行完成
--restart
如果程序已经运行,请重启程序。
databricks 数据管道生成
为现有 Spark 管道生成配置。
此命令在指定目录中查找spark-pipeline.yml或*.spark-pipeline.yml文件,并在项目的*.pipeline.yml文件夹中生成一个新的resources配置文件,该文件夹定义了管道。 如果存在多个 spark-pipeline.yml 文件,请指定特定 *.spark-pipeline.yml 文件的完整路径。
databricks pipelines generate [flags]
注释
若要在 Databricks 工作区中为现有管道生成配置,请参阅 databricks bundle generate pipeline 和 使用 Databricks CLI 为现有作业或管道生成配置。
选项
--existing-pipeline-dir
现有管道目录的路径位于 src(例如 src/my_pipeline)。
--force
覆盖现有管道配置文件。
例子
以下示例在当前目录中查找并读取 src/my_pipeline/spark-pipeline.yml,然后创建一个定义管道的配置文件 resources/my_pipeline.pipeline.yml :
databricks pipelines generate --existing-pipeline-dir src/my_pipeline
Databricks 的管道历史记录
检索标识为 KEY 的管道的过去运行。
databricks pipelines history [flags] [KEY]
论据
KEY
管道的唯一名称,如其 YAML 文件中定义。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。
选项
--end-time string
在此时间之前筛选更新(格式: 2025-01-15T10:30:00Z
--start-time string
筛选此时间后的更新(格式: 2025-01-15T10:30:00Z
databricks 数据管道初始化
初始化新的管道项目。
有关演示如何使用 Databricks CLI 创建、部署和运行管道项目的教程,请参阅 使用 Databricks 资产捆绑包开发 Lakeflow Spark 声明性管道。
databricks pipelines init [flags]
论据
没有
选项
--config-file string
包含模板初始化所需的输入参数键值对的 JSON 文件
--output-dir string
要写入初始化模板的目录
databricks 管道日志
检索由 KEY 标识的管道的事件。 默认情况下,此命令显示管道的最新更新的事件。
databricks pipelines logs [flags] [KEY]
论据
KEY
管道的唯一名称,如其 YAML 文件中定义。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。
选项
--end-time string
筛选此结束时间之前的事件(格式: 2025-01-15T10:30:00Z)
--event-type strings
按事件类型列表筛选事件
--level strings
按日志级别列表(INFO、、WARN、ERRORMETRICS) 筛选事件
-n, --number int
要返回的事件数
--start-time string
筛选此开始时间之后的事件(格式: 2025-01-15T10:30:00Z
--update-id string
按更新 ID 筛选事件。 如果未提供,请使用最新的更新 ID
例子
databricks pipelines logs pipeline-name --update-id update-1 -n 10
databricks pipelines logs pipeline-name --level ERROR,METRICS --event-type update_progress --start-time 2025-01-15T10:30:00Z
databricks 管道打开
在浏览器中打开由 KEY 标识的管道。
databricks pipelines open [flags] [KEY]
论据
KEY
要打开的管道唯一名称是在其 YAML 文件中定义的。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。
选项
--force-pull
跳过本地缓存并从远程工作区加载状态
databricks 流水线运行
运行由 KEY 标识的管道。 除非另有指定,否则刷新管道中的所有表。
databricks pipelines run [flags] [KEY]
论据
KEY
要运行的管道的独特名称,如其 YAML 文件中所定义。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。
选项
--full-refresh strings
要重置和重新计算的表列表
--full-refresh-all
执行完整图形重置并重新计算
--no-wait
不要等待运行完成
--refresh strings
要运行的表列表
--restart
如果程序已经运行,请重启程序。
Databricks 流水线停止
如果某个管道正在由 KEY 或 PIPELINE_ID 识别且运行中,则停止该管道。 如果管道没有活动更新,则此请求是 no-op。
databricks pipelines stop [KEY|PIPELINE_ID] [flags]
论据
KEY
要停止的管道的唯一名称,如其 YAML 文件中定义的那样。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。
PIPELINE_ID
要停止的管道的 UUID。
选项
--no-wait
不要等待进入IDLE(空闲)状态
--timeout duration
达到空闲状态的最长时间(默认为 20分钟0秒)
管理管道对象
以下命令允许在 Databricks 中管理管道对象。
databricks 管道创建
根据请求的配置创建新的数据处理管道。 如果成功,此命令将返回新管道的 ID。
databricks pipelines create [flags]
论据
没有
选项
--json JSON
内联 JSON 字符串或包含请求正文的 JSON 文件中的 @path。
databricks 管道删除
删除管道。
databricks pipelines delete PIPELINE_ID [flags]
论据
PIPELINE_ID
要删除的管道。
选项
databricks 管道获取
获取管道。
databricks pipelines get PIPELINE_ID [flags]
论据
PIPELINE_ID
要获取的管道。
选项
databricks 数据管道获取更新
从活跃流水线获取更新。
databricks pipelines get-update PIPELINE_ID UPDATE_ID [flags]
论据
PIPELINE_ID
管道的 ID。
UPDATE_ID
更新的 ID。
选项
databricks 流水线 list-pipeline-events
检索管道的事件。
databricks pipelines list-pipeline-events PIPELINE_ID [flags]
论据
PIPELINE_ID
检索事件所需的管道。
选项
--filter string
选择结果子集的条件,使用类似于 SQL 的语法表示。
--max-results int
单个页面中要返回的最大条目数。
--page-token string
上一次调用返回的页面令牌。
databricks 管道 list-pipelines
列出在 Delta Live Tables 系统中定义的管道。
databricks pipelines list-pipelines [flags]
论据
没有
选项
--filter string
根据指定的条件选择结果子集。
--max-results int
在单个页面中返回的最大条目数。
--page-token string
上一次调用返回的页面令牌。
databricks 管道 list-updates
列出活动管道的更新。
databricks pipelines list-updates PIPELINE_ID [flags]
论据
PIPELINE_ID
要返回更新的管道。
选项
--max-results int
单个页面中要返回的最大条目数。
--page-token string
上一次调用返回的页面令牌。
--until-update-id string
如果存在,则返回更新,直到并包括此update_id。
databricks 管道启动更新
启动管道的新更新。 如果管道已有活动更新,则请求将失败,并且活动更新将保持运行状态。
databricks pipelines start-update PIPELINE_ID [flags]
论据
PIPELINE_ID
要为其启动更新流程。
选项
--cause StartUpdateCause
支持的值:[API_CALL、JOB_TASK、RETRY_ON_FAILURE、SCHEMA_CHANGE、SERVICE_UPGRADE、USER_ACTION]
--full-refresh
如果为 true,此更新将在运行之前重置所有表。
--json JSON
内联 JSON 字符串或包含请求正文的 JSON 文件中的 @path。
--validate-only
如果为 true,此更新只会验证管道源代码的正确性,但不会具体化或发布任何数据集。
Databricks 流水线更新
使用提供的配置更新管道。
databricks pipelines update PIPELINE_ID [flags]
论据
PIPELINE_ID
此管道的唯一标识符。
选项
--allow-duplicate-names
如果若为 false,且名称更改后与另一个管道的名称冲突,则部署将失败。
--budget-policy-id string
此管道的预算政策。
--catalog string
Unity Catalog 中要将数据从此管道发布到的目录。
--channel string
Lakeflow Spark 声明性管道发布通道,用于指定要使用的版本。
--continuous
管道是连续运行的还是触发运行的。
--development
管道是否处于开发模式。
--edition string
管道产品版本。
--expected-last-modified int
如果存在,则编辑前管道设置的最后修改时间。
--id string
此管道的唯一标识符。
--json JSON
内联 JSON 字符串或包含请求正文的 JSON 文件中的 @path。
--name string
此管道的友好标识符。
--photon
是否为此管道启用了 Photon。
--pipeline-id string
此管道的唯一标识符。
--schema string
作为表的读取来源或发布目标的默认架构(数据库)。
--serverless
是否为此管道启用了无服务器计算。
--storage string
用于存储检查点和表的 DBFS 根目录。
--target string
要将此管道中的表添加到的目标架构(数据库)。
databricks 管道获取权限级别
获取管道权限级别。
databricks pipelines get-permission-levels PIPELINE_ID [flags]
论据
PIPELINE_ID
要为其获取或管理权限的管道。
选项
databricks 数据流水线 获取权限
获取管道的权限。 管道可以从其根对象继承权限。
databricks pipelines get-permissions PIPELINE_ID [flags]
论据
PIPELINE_ID
要为其获取或管理权限的管道。
选项
databricks 管道设置权限
设置管道权限。
设置对象的权限,替换现有权限(如果存在)。 如果未指定任何权限,则删除所有直接权限。 对象可以从其根对象继承权限。
databricks pipelines set-permissions PIPELINE_ID [flags]
论据
PIPELINE_ID
要为其获取或管理权限的管道。
选项
--json JSON
内联 JSON 字符串或包含请求正文的 JSON 文件中的 @path。
databricks 管道更新权限
更新管道的权限。 管道可以从其根对象继承权限。
databricks pipelines update-permissions PIPELINE_ID [flags]
论据
PIPELINE_ID
要为其获取或管理权限的管道。
选项
--json JSON
内联 JSON 字符串或包含请求正文的 JSON 文件中的 @path。
全局标志
--debug
是否启用调试日志记录。
-h 或 --help
显示 Databricks CLI、相关命令组或相关命令的帮助。
--log-file 字符串
一个字符串,表示要将输出日志写入到的文件。 如果未指定此标志,则默认会将输出日志写入到 stderr。
--log-format 格式
日志格式类型,text 或 json。 默认值是 text。
--log-level 字符串
一个表示日志格式级别的字符串。 如果未指定,则禁用日志格式级别。
-o, --output 类型
命令输出类型为 text 或 json。 默认值是 text。
-p, --profile 字符串
要用于运行命令的 ~/.databrickscfg 文件中的配置文件名称。 如果未指定此标志,并且存在命名为 DEFAULT 的配置文件,则使用该配置文件。
--progress-format 格式
显示进度日志的格式: default、 append、 inplace或 json
-t, --target 字符串
如果适用,要使用的捆绑包目标