注释
此信息适用于 Databricks CLI 版本 0.205 及更高版本。 Databricks CLI 目前处于公共预览阶段。
Databricks CLI 的使用须遵守 Databricks 许可和 Databricks 隐私声明,包括任何数据使用规定。
data-quality
Databricks CLI 中的命令组包含用于管理 Unity 目录对象的数据质量的命令。
databricks data-quality cancel-refresh
取消数据质量监视器刷新。 目前仅支持表object_type。 必须在创建监视器的同一工作区中进行调用。
调用方必须具有以下任一权限集:
- 管理和USE_CATALOG表的父目录。
- USE_CATALOG 表的父目录,以及表的父架构上的 MANAGE 和 USE_SCHEMA 。
- USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 MANAGE 。
databricks data-quality cancel-refresh OBJECT_TYPE OBJECT_ID REFRESH_ID [flags]
Arguments
OBJECT_TYPE
受监视对象的类型。 可以是下列项之一: schema 或 table。
OBJECT_ID
请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。
查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。
查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。
REFRESH_ID
刷新作的唯一 ID。
选项
示例
以下示例取消刷新作:
databricks data-quality cancel-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 refresh-12345
databricks data-quality create-monitor
在 Unity 目录对象上创建数据质量监视器。 调用方必须为架构监视器或anomaly_detection_config表监视器提供data_profiling_config。
对于表object_type,调用方必须具有以下任一权限集:
- 对表的父目录进行管理和USE_CATALOG,USE_SCHEMA表的父架构,以及表上的 SELECT。
- USE_CATALOG 表的父目录、表父架构上的 MANAGE 和 USE_SCHEMA ,以及表上的 SELECT 。
- USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 MANAGE 和 SELECT 。
工作区资产(如仪表板)将在进行此调用的工作区中创建。
对于架构object_type,调用方必须具有以下权限集之一:
- 管理和USE_CATALOG架构的父目录。
- USE_CATALOG 架构的父目录,以及架构上的 MANAGE 和 USE_SCHEMA 。
databricks data-quality create-monitor OBJECT_TYPE OBJECT_ID [flags]
Arguments
OBJECT_TYPE
受监视对象的类型。 可以是下列项之一: schema 或 table。
OBJECT_ID
请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。
查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。
查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。
选项
--json JSON
包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件
示例
以下示例为表创建数据质量监视器:
databricks data-quality create-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json '{"data_profiling_config": {"enabled": true}}'
以下示例使用 JSON 文件创建监视器:
databricks data-quality create-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json @monitor-config.json
databricks data-quality create-refresh
创建刷新。 必须在创建监视器的同一工作区中进行调用。
调用方必须具有以下任一权限集:
- 管理和USE_CATALOG表的父目录。
- USE_CATALOG 表的父目录,以及表的父架构上的 MANAGE 和 USE_SCHEMA 。
- USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 MANAGE 。
databricks data-quality create-refresh OBJECT_TYPE OBJECT_ID [flags]
Arguments
OBJECT_TYPE
受监视对象的类型。 可以是下列项之一: schema 或 table。
OBJECT_ID
请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。
查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。
查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。
选项
--json JSON
包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件
示例
以下示例为表监视器创建刷新:
databricks data-quality create-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890
以下示例使用 JSON 创建刷新:
databricks data-quality create-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json '{}'
databricks data-quality delete-monitor
删除 Unity 目录对象上的数据质量监视器。
对于表object_type,调用方必须具有以下任一权限集:
- 管理和USE_CATALOG表的父目录。
- USE_CATALOG 表的父目录,以及表的父架构上的 MANAGE 和 USE_SCHEMA 。
- USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 MANAGE 。
重要
指标表和仪表板不会作为此调用的一部分删除;必须手动清理这些资产(如果需要)。
对于架构object_type,调用方必须具有以下权限集之一:
- 管理和USE_CATALOG架构的父目录。
- USE_CATALOG 架构的父目录,以及架构上的 MANAGE 和 USE_SCHEMA 。
databricks data-quality delete-monitor OBJECT_TYPE OBJECT_ID [flags]
Arguments
OBJECT_TYPE
受监视对象的类型。 可以是下列项之一: schema 或 table。
OBJECT_ID
请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。
查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。
查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。
选项
示例
以下示例删除数据质量监视器:
databricks data-quality delete-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890
databricks data-quality get-monitor
读取 Unity 目录对象上的数据质量监视器。
对于表object_type,调用方必须具有以下任一权限集:
- 管理和USE_CATALOG表的父目录。
- USE_CATALOG 表的父目录,以及表的父架构上的 MANAGE 和 USE_SCHEMA 。
- USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 SELECT 。
对于架构object_type,调用方必须具有以下权限集之一:
- 管理和USE_CATALOG架构的父目录。
- USE_CATALOG 架构的父目录,以及架构上的 USE_SCHEMA 。
返回的信息包括实体和父实体上的配置值,以及监视器创建的资产的相关信息。 如果调用方位于与创建监视器的位置不同的工作区中,可能会筛选出某些信息(例如仪表板)。
databricks data-quality get-monitor OBJECT_TYPE OBJECT_ID [flags]
Arguments
OBJECT_TYPE
受监视对象的类型。 可以是下列项之一: schema 或 table。
OBJECT_ID
请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。
查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。
查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。
选项
示例
以下示例获取有关数据质量监视器的信息:
databricks data-quality get-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890
databricks data-quality get-refresh
获取数据质量监视器刷新信息。 必须在创建监视器的同一工作区中进行调用。
对于表object_type,调用方必须具有以下任一权限集:
- 管理和USE_CATALOG表的父目录。
- USE_CATALOG 表的父目录,以及表的父架构上的 MANAGE 和 USE_SCHEMA 。
- USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 SELECT 。
对于架构object_type,调用方必须具有以下权限集之一:
- 管理和USE_CATALOG架构的父目录。
- USE_CATALOG 架构的父目录,以及架构上的 USE_SCHEMA 。
databricks data-quality get-refresh OBJECT_TYPE OBJECT_ID REFRESH_ID [flags]
Arguments
OBJECT_TYPE
受监视对象的类型。 可以是下列项之一: schema 或 table。
OBJECT_ID
请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。
查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。
查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。
REFRESH_ID
刷新作的唯一 ID。
选项
示例
以下示例获取有关刷新的信息:
databricks data-quality get-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 refresh-12345
databricks data-quality list-refresh
列出数据质量监视器刷新。 必须在创建监视器的同一工作区中进行调用。
对于表object_type,调用方必须具有以下任一权限集:
- 管理和USE_CATALOG表的父目录。
- USE_CATALOG 表的父目录,以及表的父架构上的 MANAGE 和 USE_SCHEMA 。
- USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 SELECT 。
对于架构object_type,调用方必须具有以下权限集之一:
- 管理和USE_CATALOG架构的父目录。
- USE_CATALOG 架构的父目录,以及架构上的 USE_SCHEMA 。
databricks data-quality list-refresh OBJECT_TYPE OBJECT_ID [flags]
Arguments
OBJECT_TYPE
受监视对象的类型。 可以是下列项之一: schema 或 table。
OBJECT_ID
请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。
查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。
查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。
选项
--page-size int
每页要返回的最大刷新次数。
--page-token string
用于检索下一页结果的令牌。
示例
以下示例列出监视器的所有刷新:
databricks data-quality list-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890
以下示例列出使用分页刷新:
databricks data-quality list-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --page-size 10
databricks data-quality update-monitor
更新 Unity 目录对象上的数据质量监视器。
对于表object_type,调用方必须具有以下任一权限集:
- 管理和USE_CATALOG表的父目录。
- USE_CATALOG 表的父目录,以及表的父架构上的 MANAGE 和 USE_SCHEMA 。
- USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 MANAGE 。
对于架构object_type,调用方必须具有以下权限集之一:
- 管理和USE_CATALOG架构的父目录。
- USE_CATALOG 架构的父目录,以及架构上的 MANAGE 和 USE_SCHEMA 。
databricks data-quality update-monitor OBJECT_TYPE OBJECT_ID UPDATE_MASK OBJECT_TYPE OBJECT_ID [flags]
Arguments
OBJECT_TYPE
受监视对象的类型。 可以是下列项之一: schema 或 table。
OBJECT_ID
请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。
UPDATE_MASK
用于指定要更新为逗号分隔列表的字段的字段掩码。 示例值: data_profiling_config.custom_metrics,data_profiling_config.schedule.quartz_cron_expression.
选项
--json JSON
包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件
示例
以下示例更新监视器的配置:
databricks data-quality update-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 "data_profiling_config.schedule.quartz_cron_expression" table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json '{"data_profiling_config": {"schedule": {"quartz_cron_expression": "0 0 12 * * ?"}}}'
全局标志
--debug
是否启用调试日志记录。
-h 或 --help
显示 Databricks CLI、相关命令组或相关命令的帮助。
--log-file 字符串
一个字符串,表示要将输出日志写入到的文件。 如果未指定此标志,则默认会将输出日志写入到 stderr。
--log-format 格式
日志格式类型,text 或 json。 默认值为 text。
--log-level 字符串
一个表示日志格式级别的字符串。 如果未指定,则禁用日志格式级别。
-o, --output 类型
命令输出类型为 text 或 json。 默认值为 text。
-p, --profile 字符串
要用于运行命令的 ~/.databrickscfg 文件中的配置文件名称。 如果未指定此标志,并且存在命名为 DEFAULT 的配置文件,则使用该配置文件。
--progress-format 格式
显示进度日志的格式: default、 append、 inplace或 json
-t, --target 字符串
如果适用,要使用的捆绑包目标