data-quality 命令组

注释

此信息适用于 Databricks CLI 版本 0.205 及更高版本。 Databricks CLI 目前处于公共预览阶段。

Databricks CLI 的使用须遵守 Databricks 许可Databricks 隐私声明,包括任何数据使用规定。

data-quality Databricks CLI 中的命令组包含用于管理 Unity 目录对象的数据质量的命令。

databricks data-quality cancel-refresh

取消数据质量监视器刷新。 目前仅支持表object_type。 必须在创建监视器的同一工作区中进行调用。

调用方必须具有以下任一权限集:

  1. 管理和USE_CATALOG表的父目录。
  2. USE_CATALOG 表的父目录,以及表的父架构上的 MANAGEUSE_SCHEMA
  3. USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 MANAGE
databricks data-quality cancel-refresh OBJECT_TYPE OBJECT_ID REFRESH_ID [flags]

Arguments

OBJECT_TYPE

    受监视对象的类型。 可以是下列项之一: schematable

OBJECT_ID

    请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。

    查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。

    查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。

REFRESH_ID

    刷新作的唯一 ID。

选项

全局标志

示例

以下示例取消刷新作:

databricks data-quality cancel-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 refresh-12345

databricks data-quality create-monitor

在 Unity 目录对象上创建数据质量监视器。 调用方必须为架构监视器或anomaly_detection_config表监视器提供data_profiling_config

对于表object_type,调用方必须具有以下任一权限集:

  1. 表的父目录进行管理和USE_CATALOG,USE_SCHEMA表的父架构,以及表上的 SELECT
  2. USE_CATALOG 表的父目录、表父架构上的 MANAGEUSE_SCHEMA ,以及表上的 SELECT
  3. USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 MANAGESELECT

工作区资产(如仪表板)将在进行此调用的工作区中创建。

对于架构object_type,调用方必须具有以下权限集之一:

  1. 管理和USE_CATALOG架构的父目录。
  2. USE_CATALOG 架构的父目录,以及架构上的 MANAGEUSE_SCHEMA
databricks data-quality create-monitor OBJECT_TYPE OBJECT_ID [flags]

Arguments

OBJECT_TYPE

    受监视对象的类型。 可以是下列项之一: schematable

OBJECT_ID

    请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。

    查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。

    查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。

选项

--json JSON

    包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件

全局标志

示例

以下示例为表创建数据质量监视器:

databricks data-quality create-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json '{"data_profiling_config": {"enabled": true}}'

以下示例使用 JSON 文件创建监视器:

databricks data-quality create-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json @monitor-config.json

databricks data-quality create-refresh

创建刷新。 必须在创建监视器的同一工作区中进行调用。

调用方必须具有以下任一权限集:

  1. 管理和USE_CATALOG表的父目录。
  2. USE_CATALOG 表的父目录,以及表的父架构上的 MANAGEUSE_SCHEMA
  3. USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 MANAGE
databricks data-quality create-refresh OBJECT_TYPE OBJECT_ID [flags]

Arguments

OBJECT_TYPE

    受监视对象的类型。 可以是下列项之一: schematable

OBJECT_ID

    请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。

    查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。

    查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。

选项

--json JSON

    包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件

全局标志

示例

以下示例为表监视器创建刷新:

databricks data-quality create-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890

以下示例使用 JSON 创建刷新:

databricks data-quality create-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json '{}'

databricks data-quality delete-monitor

删除 Unity 目录对象上的数据质量监视器。

对于表object_type,调用方必须具有以下任一权限集:

  1. 管理和USE_CATALOG表的父目录。
  2. USE_CATALOG 表的父目录,以及表的父架构上的 MANAGEUSE_SCHEMA
  3. USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 MANAGE

重要

指标表和仪表板不会作为此调用的一部分删除;必须手动清理这些资产(如果需要)。

对于架构object_type,调用方必须具有以下权限集之一:

  1. 管理和USE_CATALOG架构的父目录。
  2. USE_CATALOG 架构的父目录,以及架构上的 MANAGEUSE_SCHEMA
databricks data-quality delete-monitor OBJECT_TYPE OBJECT_ID [flags]

Arguments

OBJECT_TYPE

    受监视对象的类型。 可以是下列项之一: schematable

OBJECT_ID

    请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。

    查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。

    查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。

选项

全局标志

示例

以下示例删除数据质量监视器:

databricks data-quality delete-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890

databricks data-quality get-monitor

读取 Unity 目录对象上的数据质量监视器。

对于表object_type,调用方必须具有以下任一权限集:

  1. 管理和USE_CATALOG表的父目录。
  2. USE_CATALOG 表的父目录,以及表的父架构上的 MANAGEUSE_SCHEMA
  3. USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 SELECT

对于架构object_type,调用方必须具有以下权限集之一:

  1. 管理和USE_CATALOG架构的父目录。
  2. USE_CATALOG 架构的父目录,以及架构上的 USE_SCHEMA

返回的信息包括实体和父实体上的配置值,以及监视器创建的资产的相关信息。 如果调用方位于与创建监视器的位置不同的工作区中,可能会筛选出某些信息(例如仪表板)。

databricks data-quality get-monitor OBJECT_TYPE OBJECT_ID [flags]

Arguments

OBJECT_TYPE

    受监视对象的类型。 可以是下列项之一: schematable

OBJECT_ID

    请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。

    查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。

    查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。

选项

全局标志

示例

以下示例获取有关数据质量监视器的信息:

databricks data-quality get-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890

databricks data-quality get-refresh

获取数据质量监视器刷新信息。 必须在创建监视器的同一工作区中进行调用。

对于表object_type,调用方必须具有以下任一权限集:

  1. 管理和USE_CATALOG表的父目录。
  2. USE_CATALOG 表的父目录,以及表的父架构上的 MANAGEUSE_SCHEMA
  3. USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 SELECT

对于架构object_type,调用方必须具有以下权限集之一:

  1. 管理和USE_CATALOG架构的父目录。
  2. USE_CATALOG 架构的父目录,以及架构上的 USE_SCHEMA
databricks data-quality get-refresh OBJECT_TYPE OBJECT_ID REFRESH_ID [flags]

Arguments

OBJECT_TYPE

    受监视对象的类型。 可以是下列项之一: schematable

OBJECT_ID

    请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。

    查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。

    查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。

REFRESH_ID

    刷新作的唯一 ID。

选项

全局标志

示例

以下示例获取有关刷新的信息:

databricks data-quality get-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 refresh-12345

databricks data-quality list-refresh

列出数据质量监视器刷新。 必须在创建监视器的同一工作区中进行调用。

对于表object_type,调用方必须具有以下任一权限集:

  1. 管理和USE_CATALOG表的父目录。
  2. USE_CATALOG 表的父目录,以及表的父架构上的 MANAGEUSE_SCHEMA
  3. USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 SELECT

对于架构object_type,调用方必须具有以下权限集之一:

  1. 管理和USE_CATALOG架构的父目录。
  2. USE_CATALOG 架构的父目录,以及架构上的 USE_SCHEMA
databricks data-quality list-refresh OBJECT_TYPE OBJECT_ID [flags]

Arguments

OBJECT_TYPE

    受监视对象的类型。 可以是下列项之一: schematable

OBJECT_ID

    请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。

    查找 schema_id 以下任一项:(1) 架构资源的 schema_id 。 (2) 在 目录资源管理器 →选择架构→转到“架构 ID”字段→“详细信息”选项卡。

    查找 table_id 以下任一项:(1) 表资源的 table_id 。 (2) 在 目录资源管理器 →选择表→转到“表 ID”字段→“详细信息”选项卡。

选项

--page-size int

    每页要返回的最大刷新次数。

--page-token string

    用于检索下一页结果的令牌。

全局标志

示例

以下示例列出监视器的所有刷新:

databricks data-quality list-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890

以下示例列出使用分页刷新:

databricks data-quality list-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --page-size 10

databricks data-quality update-monitor

更新 Unity 目录对象上的数据质量监视器。

对于表object_type,调用方必须具有以下任一权限集:

  1. 管理和USE_CATALOG表的父目录。
  2. USE_CATALOG 表的父目录,以及表的父架构上的 MANAGEUSE_SCHEMA
  3. USE_CATALOG 表的父目录, USE_SCHEMA 表的父架构,以及表上的 MANAGE

对于架构object_type,调用方必须具有以下权限集之一:

  1. 管理和USE_CATALOG架构的父目录。
  2. USE_CATALOG 架构的父目录,以及架构上的 MANAGEUSE_SCHEMA
databricks data-quality update-monitor OBJECT_TYPE OBJECT_ID UPDATE_MASK OBJECT_TYPE OBJECT_ID [flags]

Arguments

OBJECT_TYPE

    受监视对象的类型。 可以是下列项之一: schematable

OBJECT_ID

    请求对象的 UUID。 它 schema_id 适用于架构和 table_id 表。

UPDATE_MASK

    用于指定要更新为逗号分隔列表的字段的字段掩码。 示例值: data_profiling_config.custom_metrics,data_profiling_config.schedule.quartz_cron_expression.

选项

--json JSON

    包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件

全局标志

示例

以下示例更新监视器的配置:

databricks data-quality update-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 "data_profiling_config.schedule.quartz_cron_expression" table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json '{"data_profiling_config": {"schedule": {"quartz_cron_expression": "0 0 12 * * ?"}}}'

全局标志

全局标志

--debug

  是否启用调试日志记录。

-h--help

    显示 Databricks CLI、相关命令组或相关命令的帮助。

--log-file 字符串

    一个字符串,表示要将输出日志写入到的文件。 如果未指定此标志,则默认会将输出日志写入到 stderr。

--log-format 格式

    日志格式类型,textjson。 默认值为 text

--log-level 字符串

    一个表示日志格式级别的字符串。 如果未指定,则禁用日志格式级别。

-o, --output 类型

    命令输出类型为 textjson。 默认值为 text

-p, --profile 字符串

    要用于运行命令的 ~/.databrickscfg 文件中的配置文件名称。 如果未指定此标志,并且存在命名为 DEFAULT 的配置文件,则使用该配置文件。

--progress-format 格式

    显示进度日志的格式: defaultappendinplacejson

-t, --target 字符串

    如果适用,要使用的捆绑包目标