clusters 命令组

注释

此信息适用于 Databricks CLI 版本 0.205 及更高版本。 Databricks CLI 目前处于公共预览阶段。

Databricks CLI 的使用须遵守 Databricks 许可Databricks 隐私声明,包括任何数据使用规定。

clusters CLI 中的命令组允许创建、启动、编辑、列出、终止和删除群集。

Databricks 群集是一组计算资源和配置,可在其中运行数据工程、数据科学和数据分析工作负载,例如生产 ETL 管道、流分析、即席分析和机器学习。 请参阅连接至综合和作业计算

重要

Databricks 将终止群集的群集配置信息保留 30 天。 管理员可以将通用群集固定到群集列表中,来确保即便在群集已被终止超过 30 天后,仍能保持其配置。

databricks 群集更改所有者

更改群集的所有者。 必须是管理员,并且群集必须终止才能执行此操作。 可将服务主体应用程序 ID 作为参数提供给owner_username。

databricks clusters change-owner CLUSTER_ID OWNER_USERNAME [flags]

论据

CLUSTER_ID

    群集 ID。

OWNER_USERNAME

    此 RPC 之后 “cluster_id” 的新所有者。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

全局标志

databricks 群集创建

创建新群集。 如果需要,此命令将从云提供商获取新实例。 此命令是异步的;返回cluster_id可用于轮询群集状态。 此命令返回时,群集将处于 PENDING 状态。 群集进入“正在运行”状态后将可用。 由于云提供商限制(帐户限制、现价等)或暂时性网络问题,Databricks 可能无法获取某些请求的节点。

如果 Databricks 获取请求的按需节点的至少 85%,群集创建将成功。 否则,群集将终止并显示信息性错误消息。

Databricks 建议填写 创建计算 UI ,然后从 UI 复制生成的 JSON 定义,而不是从头开始创作群集的 JSON 定义。

databricks clusters create SPARK_VERSION [flags]

论据

SPARK_VERSION

    群集的 Spark 版本,例如 13.3.x-scala2.12。 可以使用 列表可用的 Spark 版本 API 检索可用的 Spark 版本 列表。

选项

--apply-policy-default-values

    设置为 true 时,策略中的固定值和默认值将用于省略的字段。

--autotermination-minutes int

    在群集处于非活动状态(以分钟为单位)后自动终止群集。

--cluster-name string

    用户请求的群集名称。

--data-security-mode DataSecurityMode

    数据安全模式决定从群集访问数据时要使用的数据治理模型。 支持的值:DATA_SECURITY_MODE_AUTO、、、DATA_SECURITY_MODE_DEDICATEDDATA_SECURITY_MODE_STANDARDLEGACY_PASSTHROUGHLEGACY_SINGLE_USERLEGACY_SINGLE_USER_STANDARDLEGACY_TABLE_ACLNONE、、 SINGLE_USERUSER_ISOLATION

--driver-instance-pool-id string

    群集所属的驱动程序实例池的可选 ID。

--driver-node-type-id string

    Spark 驱动程序的节点类型。

--enable-elastic-disk

    自动缩放本地存储:启用后,当 Spark 辅助角色在磁盘空间不足时,此群集将动态获取额外的磁盘空间。

--enable-local-disk-encryption

    是否在群集 VM 的本地磁盘上启用 LUKS。

--instance-pool-id string

    群集所属的实例池的可选 ID。

--is-single-node

    仅当类型 = CLASSIC_PREVIEW时,才能使用此字段。

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

--kind Kind

    此计算规范描述的计算类型。 支持的值:CLASSIC_PREVIEW

--no-wait

    不要等待达到“运行”状态

--node-type-id string

    此字段通过单个值对提供给此群集中的每个 Spark 节点的资源进行编码。

--num-workers int

    此群集应该拥有的工作器节点的数目。

--policy-id string

    用于创建群集(如果适用)的群集策略的 ID。

--runtime-engine RuntimeEngine

    确定群集的运行时引擎(标准或 Photon)。 支持的值:NULLPHOTONSTANDARD

--single-user-name string

    如果“data_security_mode”为 SINGLE_USER,则为单个用户名。

--timeout duration

    达到运行状态的最大时间(默认为 20m0s)

--use-ml-runtime

    仅当类型 = CLASSIC_PREVIEW时,才能使用此字段。

全局标志

databricks 群集删除

终止具有指定 ID 的群集。 以异步方式删除群集。 终止完成后,群集将处于 TERMINATED 状态。 如果群集已处于 TERMINATINGTERMINATED 状态,则不会发生任何作。

databricks clusters delete CLUSTER_ID [flags]

论据

CLUSTER_ID

    要终止的群集。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

--no-wait

    不要等待到达 TERMINATED 状态

--timeout duration

    达到 TERMINATED 状态的最大时间(默认为 20m0s)

全局标志

databricks 群集编辑

更新群集的配置以匹配提供的属性和大小。 如果群集处于 RUNNING 或 TERMINATED 状态,则可以更新群集。

如果在运行状态下更新群集,则会重启群集,以便新属性生效。

如果群集在 TERMINATED 状态下被更新,它将保持 TERMINATED。 下次使用群集/启动 API 时,新属性将生效。 任何尝试更新处于任何其他状态的群集都将被拒绝,并出现INVALID_STATE错误代码。

无法编辑 Databricks 作业服务创建的群集。

databricks clusters edit CLUSTER_ID SPARK_VERSION [flags]

论据

CLUSTER_ID

    群集的 ID

SPARK_VERSION

    群集的 Spark 版本,例如 13.3.x-scala2.12。 可以使用 列表可用的 Spark 版本 API 检索可用的 Spark 版本 列表。

选项

--apply-policy-default-values

    对省略的字段使用策略中的固定值和默认值。

--autotermination-minutes int

    在群集处于非活动状态(以分钟为单位)后自动终止群集。

--cluster-name string

    用户请求的群集名称。

--data-security-mode DataSecurityMode

    数据安全模式决定从群集访问数据时要使用的数据治理模型。 支持的值:DATA_SECURITY_MODE_AUTO、、、、 DATA_SECURITY_MODE_DEDICATED``, DATA_SECURITY_MODE_STANDARDLEGACY_PASSTHROUGHLEGACY_SINGLE_USERLEGACY_SINGLE_USER_STANDARDLEGACY_TABLE_ACLNONESINGLE_USERUSER_ISOLATION

--driver-instance-pool-id string

    群集所属的驱动程序实例池的可选 ID。

--driver-node-type-id string

    Spark 驱动程序的节点类型。

--enable-elastic-disk

    自动缩放本地存储:启用后,当 Spark 辅助角色在磁盘空间不足时,此群集将动态获取额外的磁盘空间。

--enable-local-disk-encryption

    是否在群集 VM 的本地磁盘上启用 LUKS。

--instance-pool-id string

    群集所属的实例池的可选 ID。

--is-single-node

    仅当类型 = CLASSIC_PREVIEW时,才能使用此字段。

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

--kind Kind

    此计算规范描述的计算类型。 支持的值:CLASSIC_PREVIEW

--no-wait

    不要等待进入“正在运行”状态

--node-type-id string

    此字段通过单个值对提供给此群集中的每个 Spark 节点的资源进行编码。

--num-workers int

    此群集应该拥有的工作器节点的数目。

--policy-id string

    用于创建群集(如果适用)的群集策略的 ID。

--runtime-engine RuntimeEngine

    确定群集的运行时引擎(标准或 Photon)。 支持的值:NULLPHOTONSTANDARD

--single-user-name string

    如果 data_security_mode 为 SINGLE_USER,则使用单一用户名。

--timeout duration

    达到运行状态的最大时间(默认为 20m0s)

--use-ml-runtime

    仅当类型 = CLASSIC_PREVIEW时,才能使用此字段。

全局标志

databricks 集群事件

列出有关群集活动的事件。 此 API 是分页的 如果要读取更多事件,响应将包含请求下一页事件所需的所有参数。

databricks clusters events CLUSTER_ID [flags]

论据

CLUSTER_ID

    要检索事件的群集 ID。

选项

--end-time int

    以纪元毫秒为单位的结束时间。

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

--limit int

    已弃用:改用与page_size结合使用page_token。

--offset int

    已弃用:改用与page_size结合使用page_token。

--order GetEventsOrder

    列出事件的顺序。 支持的值:ASCDESC

--page-size int

    事件页中要包含的最大事件数。

--page-token string

    使用从上一个请求返回的next_page_token或prev_page_token分别列出下一页或上一页的事件。

--start-time int

    开始时间(以 epoch 毫秒为单位)。

全局标志

databricks 群集 get

获取给定群集标识符的信息。 群集在运行过程中可以被描述,或者在终止后最多60天内可以描述。

databricks clusters get CLUSTER_ID [flags]

论据

CLUSTER_ID

    要检索信息的集群。

选项

全局标志

databricks 群集列表

列出有关所有固定和活动群集的信息,以及在过去 30 天内终止的所有群集。 不包括在此时间段之前终止的群集。

databricks clusters list [flags]

论据

没有

选项

--cluster-sources []string

    按源筛选群集

--cluster-states []string

    按状态筛选群集

--is-pinned

    按固定状态筛选群集

--page-size int

    使用此字段可以指定要由服务器返回的最大结果数。

--page-token string

    使用从上一个请求返回的next_page_token或prev_page_token分别列出群集的下一页或上一页。

--policy-id string

    按策略 ID 筛选群集

全局标志

databricks 群集 列出节点类型

列出支持的 Spark 节点类型。 这些节点类型可用于启动群集。

databricks clusters list-node-types [flags]

论据

没有

选项

全局标志

databricks 群集列表区域

列出可在其中创建群集的可用性区域(例如 us-west-2a)。 这些区域可用于启动群集。

databricks clusters list-zones [flags]

论据

没有

选项

全局标志

databricks 群集永久性删除

永久删除群集。 此群集已终止,并异步删除资源。

此外,用户将不再在群集列表中看到永久删除的群集,API 用户不能再对永久删除的群集执行任何作。

databricks clusters permanent-delete CLUSTER_ID [flags]

论据

CLUSTER_ID

    要删除的群集。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

全局标志

databricks 群集引脚

将群集设为固定状态,以确保通过 ListClusters API 调用时始终返回该群集。 重新固定已固定的群集不会产生效果。 此 API 只能由工作区管理员调用。

databricks clusters pin CLUSTER_ID [flags]

论据

CLUSTER_ID

    群集 ID。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

全局标志

Databricks 群集调整大小

调调整群集大小以达到所需数量的工作节点。 如果群集不处于 RUNNING 状态,该操作将失败。

databricks clusters resize CLUSTER_ID [flags]

论据

CLUSTER_ID

    要调整大小的群集。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

--no-wait

    不要等待达到“运行”状态

--num-workers int

    此群集应该拥有的工作器节点的数目。

--timeout duration

    达到运行状态的最大时间(默认为 20m0s)

全局标志

databricks 群集重启

重启具有指定 ID 的群集。 如果群集当前未处于 RUNNING 状态,则不会发生任何事情。

databricks clusters restart CLUSTER_ID [flags]

论据

CLUSTER_ID

    要启动的群集。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

--no-wait

    不要等待达到“运行”状态

--restart-user string

    重启群集的用户。

--timeout duration

    达到运行状态的最大时间(默认为 20m0s)

全局标志

Databricks 集群 Spark 版本

列出可用的 Spark 版本。 这些版本可用于启动群集。

databricks clusters spark-versions [flags]

论据

没有

选项

全局标志

databricks 群集启动

使用指定的 ID 启动已终止的群集。 这类似于 createCluster,但以下情况除外: - 保留以前的群集 ID 和属性。 - 群集以最近指定的群集大小启动。 - 如果上一个群集是自动缩放群集,则当前群集以最小节点数开头。 - 如果群集当前未处于 TERMINATED 状态,则不会发生任何事情。 - 用于运行作业的群集无法启动。

databricks clusters start CLUSTER_ID [flags]

论据

CLUSTER_ID

    要启动的群集。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

--no-wait

    不要等待达到“运行”状态

--timeout duration

    达到运行状态的最大时间(默认为 20m0s)

全局标志

databricks 群集解除固定

解除固定群集,以便最终将其从 ListClusters API 中删除。 未固定的群集,去除固定不会有任何效果。 此 API 只能由工作区管理员调用。

databricks clusters unpin CLUSTER_ID [flags]

论据

CLUSTER_ID

    群集 ID。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

全局标志

databricks 群集更新

更新群集的配置,以匹配部分属性和大小集。 表示使用请求正文中的update_mask字段更新哪些字段。 如果群集处于 RUNNING 或 TERMINATED 状态,则可以更新群集。 如果在运行状态下更新群集,则会重启群集,以便新属性生效。 如果群集在 TERMINATED 状态下被更新,它将保持 TERMINATED。 在下次使用群集启动 API 启动群集时,更新的属性将生效。 尝试更新处于任何其他状态的群集将被拒绝,并出现INVALID_STATE错误代码。 Databricks 作业服务创建的群集无法更新。

databricks clusters update CLUSTER_ID UPDATE_MASK [flags]

论据

CLUSTER_ID

    群集的 ID。

UPDATE_MASK

    用于指定要更新的群集属性和大小字段。 有关详细信息,请参阅 https://google.aip.dev/161。 字段掩码必须是单个字符串,多个字段用逗号分隔(无空格)。 字段路径相对于资源对象,使用点(.)导航子字段(例如)。 author.given_name 不允许对序列或映射字段中的元素进行规范,因为只能指定整个集合字段。 字段名称必须与资源字段名称完全匹配。 _ 字段掩码表示完全替换。 建议始终显式列出要更新的字段,避免使用 _ 通配符,因为如果 API 将来发生更改,可能会导致意外结果。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

--no-wait

    不要等待达到“运行”状态

--timeout duration

    达到运行状态的最大时间(默认为 20m0s)

全局标志

databricks 群集获取权限级别

获取群集权限级别。

databricks clusters get-permission-levels CLUSTER_ID [flags]

论据

CLUSTER_ID

    用于获取或管理权限的群集。

选项

全局标志

databricks 群集获取权限

获取群集权限。 群集可以从其根对象继承权限。

databricks clusters get-permissions CLUSTER_ID [flags]

论据

CLUSTER_ID

    用于获取或管理权限的群集。

选项

全局标志

Databricks 集群设置权限

设置群集权限,替换现有权限(如果存在)。 如果未指定任何权限,则删除所有直接权限。 对象可以从其根对象继承权限。

databricks clusters set-permissions CLUSTER_ID [flags]

论据

CLUSTER_ID

    用于获取或管理权限的群集。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

全局标志

databricks 群集更新权限

更新群集上的权限。 群集可以从其根对象继承权限。

databricks clusters update-permissions CLUSTER_ID [flags]

论据

CLUSTER_ID

    用于获取或管理权限的群集。

选项

--json JSON

    内联 JSON 字符串或包含请求正文的 JSON 文件

全局标志

全局标志

--debug

  是否启用调试日志记录。

-h--help

    显示 Databricks CLI、相关命令组或相关命令的帮助。

--log-file 字符串

    一个字符串,表示要将输出日志写入到的文件。 如果未指定此标志,则默认会将输出日志写入到 stderr。

--log-format 格式

    日志格式类型,textjson。 默认值是 text

--log-level 字符串

    一个表示日志格式级别的字符串。 如果未指定,则禁用日志格式级别。

-o, --output 类型

    命令输出类型为 textjson。 默认值是 text

-p, --profile 字符串

    要用于运行命令的 ~/.databrickscfg 文件中的配置文件名称。 如果未指定此标志,并且存在命名为 DEFAULT 的配置文件,则使用该配置文件。

--progress-format 格式

    显示进度日志的格式: defaultappendinplacejson

-t, --target 字符串

    如果适用,要使用的捆绑包目标