使用液态聚类对表进行分析

2025-10-13

液体聚类取代了表分区和ZORDER，简化数据布局决策并优化查询性能。它提供了在不重写现有数据的情况下重新定义聚类分析键的灵活性，从而允许数据布局随着时间推移而随着分析需求而发展

重要

Liquid 聚类分析通常用于 Delta Lake 表和公共预览版中的托管 Apache Iceberg 表。

对于启用了液体聚类分析的所有 Delta Lake 表，Databricks 建议使用 Databricks Runtime 15.2 及更高版本。 Databricks Runtime 13.3 LTS 及更高版本中提供了具有限制的公共预览版支持。 Databricks Runtime 13.3 LTS 及以上版本支持行级并发，并在 Databricks Runtime 14.2 及以上版本中普遍适用，适用于所有启用删除向量的表。请参阅 Azure Databricks 上的隔离级别和写入冲突。

对于启用了液体聚类分析的所有 Apache Iceberg 表，需要 Databricks Runtime 16.4 LTS 及更高版本。

Liquid 聚类分析的用途是什么？

Databricks 建议对所有新表进行液体聚类分析。下面是受益于聚类分析的情况的示例：

通常按高基数列筛选的表。
数据分布中存在明显偏差的表。
增长迅速且需要维护和优化工作量的表。
具有并发写入要求的表。
访问模式随时间变化的表。
典型分区键可能使表具有过多或过少的分区的表。

启用 liquid 聚类分析

可在现有表上或在表创建期间启用 liquid 聚类。聚类与分区或 ZORDER 不兼容，并且要求使用 Azure Databricks 管理表中数据的所有布局和优化操作。启用 liquid 聚类后，像往常一样运行 OPTIMIZE 作业，以增量方式群集数据。请参阅如何触发聚类分析。

若要启用 liquid 聚类分析，请将短语 CLUSTER BY 添加到表创建语句中，如以下示例所示：

注意

在 Databricks Runtime 14.2 及更高版本中，可以使用 Python 或 Scala 中的数据帧 API 和 DeltaTable API 为 Delta Lake 表启用液体聚类分析。

SQL

-- Create an empty Delta table
CREATE TABLE table1(col0 INT, col1 string) CLUSTER BY (col0);

-- Using a CTAS statement
CREATE EXTERNAL TABLE table2 CLUSTER BY (col0)  -- specify clustering after table name, not in subquery
LOCATION 'table_location'
AS SELECT * FROM table1;

-- Using a LIKE statement to copy configurations
CREATE TABLE table3 LIKE table1;

对于 Apache Iceberg，在托管 Iceberg 表上启用 Liquid 聚类分析时，必须显式禁用删除向量和行 ID。

Python

# Create an empty Delta table
(DeltaTable.create()
  .tableName("table1")
  .addColumn("col0", dataType = "INT")
  .addColumn("col1", dataType = "STRING")
  .clusterBy("col0")
  .execute())

# Using a CTAS statement
df = spark.read.table("table1")
df.write.clusterBy("col0").saveAsTable("table2")

# CTAS using DataFrameWriterV2
df = spark.read.table("table1")
df.writeTo("table1").using("delta").clusterBy("col0").create()

Scala(编程语言)

// Create an empty Delta table
DeltaTable.create()
  .tableName("table1")
  .addColumn("col0", dataType = "INT")
  .addColumn("col1", dataType = "STRING")
  .clusterBy("col0")
  .execute()

// Using a CTAS statement
val df = spark.read.table("table1")
df.write.clusterBy("col0").saveAsTable("table2")

// CTAS using DataFrameWriterV2
val df = spark.read.table("table1")
df.writeTo("table1").using("delta").clusterBy("col0").create()

在 Databricks Runtime 16.0 及更高版本中，可以使用结构化流式处理写入创建启用了 liquid 聚类分析的表，如以下示例所示：

SQL

CREATE TABLE table1 (
  col0 STRING,
  col1 DATE,
  col2 BIGINT
)
CLUSTER BY (col0, col1);

Python

(spark.readStream.table("source_table")
  .writeStream
  .clusterBy("column_name")
  .option("checkpointLocation", checkpointPath)
  .toTable("target_table")
)

Scala(编程语言)

spark.readStream.table("source_table")
  .writeStream
  .clusterBy("column_name")
  .option("checkpointLocation", checkpointPath)
  .toTable("target_table")

警告

启用了液体聚类的 Delta 表在创建时启用了许多 Delta 表功能，并使用 Delta 编写器版本 7 和读取器版本 3。可以替代其中一些功能的启用。请参阅替代默认功能启用（可选）。

表协议版本不能降级，并且如果 Delta Lake 客户端不支持所有已启用的 Delta 读取器协议表功能，则此客户端无法读取启用聚类分析的表。请参阅 Delta Lake 功能兼容性和协议。

使用以下语法在现有未分区的 Delta 表上启用液体聚类分析：

-- Alter an existing table
ALTER TABLE <table_name>
CLUSTER BY (<clustering_columns>)

对于 Apache Iceberg，在现有托管 Iceberg 表上启用液体聚类分析时，必须显式禁用删除矢量和行 ID。

重要

默认行为不对以前写入的数据应用聚类分析。要强制对所有记录重新聚类，则必须使用 OPTIMIZE FULL。请参阅强制对所有记录重新聚类。

要删除聚类分析键，请使用以下语法：

ALTER TABLE table_name CLUSTER BY NONE;

自动液体聚类分析

在 Databricks Runtime 15.4 LTS 及更高版本中，可以为 Unity 目录托管 Delta 表启用自动液体聚类分析。启用自动 liquid 聚类分析后，Azure Databricks 会智能地选择聚类分析键以优化查询性能。可以使用 CLUSTER BY AUTO 子句启用自动 liquid 聚类分析。

为了识别聚类分析键，Azure Databricks 分析表的历史查询工作负荷，并标识最佳候选列。当预测的成本节省超过集群数据处理成本时，集群键会根据数据跳过改进而改变。

如果查询数据的方式随时间发生变化或查询性能表明数据分布发生变化，则自动 liquid 聚类分析会选择新键来优化性能。

如果未通过自动液体聚类分析选择密钥，原因可能是：

表太小，无法受益于液体聚类分析。
该表已具有良好的聚类分析方案。例如，它具有以前已有效应用过的良好键，或者插入顺序对给定的查询模式表现良好，例如数据按时间顺序插入并在时间戳上进行查询。
该表没有频繁的查询。
未使用 Databricks Runtime 15.4 LTS 或更高版本。

无论数据和查询特征如何，都可以为所有 Unity 目录托管表应用自动液体聚类分析。这些功能根据您的数据使用模式为数据布局提供智能优化，启发式方法将评估选择群集密钥是否具有成本效益。

注意

可以从支持液体聚类分析的所有 Databricks Runtime 版本读取或写入启用了自动聚类分析的表。但是，智能密钥选择依赖于 Databricks Runtime 15.4 LTS 中引入的元数据。使用 Databricks Runtime 15.4 LTS 或更高版本来确保自动选择的键有利于所有工作负载，并在选择新键时考虑这些工作负载。

启用或禁用自动液体聚类分析

若要启用或禁用新表或现有表上的自动液体聚类分析，请使用以下语法：

SQL

-- Create an empty table.
CREATE OR REPLACE TABLE table1(column01 int, column02 string) CLUSTER BY AUTO;

-- Enable automatic liquid clustering on an existing table,
-- including tables that previously had manually specified keys.
ALTER TABLE table1 CLUSTER BY AUTO;

-- Disable automatic liquid clustering on an existing table.
ALTER TABLE table1 CLUSTER BY NONE;

-- Disable automatic liquid clustering by setting the clustering keys
-- to chosen clustering columns or new columns.
ALTER TABLE table1 CLUSTER BY (column01, column02);

注意

如果在未指定CREATE OR REPLACE table_name的情况下运行CLUSTER BY AUTO并且表已存在且已启用自动液体聚类分析，AUTO则替换表时将保留表的设置和聚类分析列（如果已应用）。

Python

df = spark.read.table("table1")
df.write
  .format("delta")
  .option("clusterByAuto", "true")
  .saveAsTable(...)

# To set clustering columns and auto, which serves as a way to give a hint
# for the initial selection.
df.write
  .format("delta")
  .clusterBy("clusteringColumn1", "clusteringColumn2")
  .option("clusterByAuto", "true")
  .saveAsTable(...)

# Using DataFrameWriterV2
df.writeTo(...).using("delta")
  .option("clusterByAuto", "true")
  .create()

# To set clustering columns and auto, which serves as a way to give a hint
# for the initial selection.
df.writeTo(...).using("delta")
  .clusterBy("clusteringColumn1", "clusteringColumn2")
  .option("clusterByAuto", "true")
  .create()

# Similar syntax can also be used to set clusterByAuto for streaming tables.
spark.readStream.table("source_table")
  .writeStream
  .option("clusterByAuto", "true")
  .option("checkpointLocation", checkpointPath)
  .toTable("target_table")

# Or to specify a hint for the clustering columns by specifying both auto and columns together
spark.readStream.table("source_table")
  .writeStream
 .clusterBy("column1", "column2")
  .option("clusterByAuto", "true")
  .option("checkpointLocation", checkpointPath)
  .toTable("target_table")

注意

Databricks Runtime 16.4 及更高版本中提供了 Python API。

当.clusterBy与.option('clusterByAuto', 'true)一起使用时，那么：

如果这是第一次设置自动液体聚类，它将始终遵循手动输入并在.clusterBy中设置聚类列。
如果这是一个具有自动液体聚类的表，则可以接受一次使用.clusterBy的提示。例如，只有当表尚未通过你或自动液体聚类设置聚集列时，.clusterBy 所指定的列才会被设置。

只能在创建或替换表时使用 Python。使用 SQL 更改 clusterByAuto 现有表的状态。

检查是否启用了自动聚类分析

若要检查表是否启用了自动液体聚类分析，请使用 DESCRIBE TABLE 或 SHOW TBLPROPERTIES。

如果启用了自动液体聚类分析，则属性 clusterByAuto 设置为 true。该clusteringColumns 属性显示自动或手动选择的目前的聚类列。

限制

自动液体聚类分析不适用于 Apache Iceberg。

替代默认功能启用（可选）

可以替代在 liquid 群集启用期间启用 Delta 表功能的默认行为。这可以防止与这些表功能关联的读取器和编写器协议升级。必须具有现有表才能完成以下步骤：

使用 ALTER TABLE 设置会禁用一个或多个功能的表属性。例如，若要禁用删除矢量，请运行以下命令：
```
ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = false);
```

通过运行以下命令，在表上启用 liquid 群集：

ALTER TABLE <table_name>
CLUSTER BY (<clustering_columns>)

在下表中了解你可替代的 Delta 功能，并了解启用如何影响与 Databricks Runtime 版本的兼容性。

Delta 功能	运行时兼容性	用于替代启用的属性	禁用对 liquid 群集的影响
删除向量	读取和写入需要 Databricks Runtime 12.2 LTS 及更高版本。	`'delta.enableDeletionVectors' = false`	行级并发被禁用，导致事务和群集操作更有可能发生冲突。请参阅行级并发的写入冲突。 `DELETE`、`MERGE` 和 `UPDATE` 命令可能运行较慢。
行跟踪	写入操作需要 Databricks Runtime 13.3 LTS 及更高版本。可以从任何 Databricks Runtime 版本进行读取。	`'delta.enableRowTracking' = false`	行级并发被禁用，导致事务和群集操作更有可能发生冲突。请参阅行级并发的写入冲突。
检查点 V2	读取和写入操作需要 Databricks Runtime 13.3 LTS 及更高版本。	`'delta.checkpointPolicy' = 'classic'`	对 liquid 群集行为无影响。

选择群集键

Databricks 建议对支持的表进行自动 liquid 聚类分析。请参阅自动液体聚类。

Databricks 建议根据查询筛选器中最常使用的列选择聚类分析键。可按任意顺序定义群集键。如果两列高度相关，只需将其中一列做为聚类键。

您最多可以指定四个聚类键。对于较小的表（小于 10 TB），使用更多聚类键（例如，4 个）与使用更少聚类键（例如，2 个）相比，在对单个列进行筛选时可能会导致性能下降。但是，随着表大小的增加，对单列查询使用更多聚类分析键的性能差异可以忽略不计。

您只能将已收集统计信息的列指定为聚类键。默认情况下，Delta 表中的前 32 列收集统计信息。请参阅指定增量统计信息列。

聚类分析支持以下用于聚类分析键的数据类型：

日期
时间戳
TimestampNTZ（需要 Databricks Runtime 14.3 LTS 或更高版本）
字符串
整数
长整型
短
浮点
加倍
十进制
字节(Byte)

若要转换现有表，请考虑以下建议：

当前数据优化技术	有关群集键的建议
Hive 样式分区	使用分区列作为群集键。
Z 顺序索引	使用 `ZORDER BY` 列作为群集键。
Hive 样式分区和 Z 顺序	将分区列和 `ZORDER BY` 列用作群集键。
生成的用于减少基数的列（例如，时间戳的日期）	使用原始列作为群集键，不要创建生成的列。

将数据写入聚类分析表

若要写入聚集 Delta 表，必须使用支持液体聚类分析使用的所有 Delta 写入协议表功能的 Delta 编写器客户端。若要写入集群 Iceberg 表，可以使用 Unity Catalog 的 Iceberg REST Catalog API。在 Azure Databricks 上，必须使用 Databricks Runtime 13.3 LTS 及更高版本。

写入时群集的操作包括：

INSERT INTO 操作
CTAS 和 RTAS 语句
Parquet 格式的 COPY INTO
spark.write.mode("append")

写入时聚类分析仅在事务中的数据满足大小阈值时触发。这些阈值因聚类分析列数而异，在 Unity Catalog 托管表中比在其他 Delta 表中更低。

聚类分析列数	Unity Catalog 托管表的阈值大小	其他 Delta 表的阈值大小
1	64 MB	256 MB
2	256 MB	1GB
3	512 MB	2 GB
4	1GB	4 GB

由于并非所有操作都应用 liquid 聚类分析，因此 Databricks 建议经常运行 OPTIMIZE，以确保有效地聚类分析所有数据。

将 Spark 配置 spark.databricks.delta.liquid.eagerClustering.streaming.enabled 设置为 true 时，结构化流式处理工作负载支持在写入时进行群集处理。仅当过去五个流式处理更新中的至少一个超出上表中的大小阈值时，才会触发这些工作负荷的聚类分析。

如何触发聚类分析

预测性优化会自动对已启用的表运行 OPTIMIZE 命令。

若要触发聚类分析，必须使用 Databricks Runtime 13.3 LTS 或更高版本。在您的表上使用 OPTIMIZE 命令：

OPTIMIZE table_name;

Liquid 聚类分析是增量的，这意味着仅在必要时重写数据，以适应需要聚类分析的数据。不会重写那些聚类键与待聚类数据不匹配的数据文件。

如果不使用预测优化，Databricks 建议定期调度 OPTIMIZE 作业来对数据进行聚类。对于经历多次更新或插入的表，Databricks 建议每隔一或两个小时安排一次 OPTIMIZE 作业。由于 liquid 聚类分析是增量的，因此聚类分析表的大多数 OPTIMIZE 作业运行速度很快。

强制对所有记录重新聚类

在 Databricks Runtime 16.0 及更高版本中，可使用以下语法强制对表中的所有记录重新聚类：

OPTIMIZE table_name FULL;

重要

根据需要运行 OPTIMIZE FULL 重新聚类所有现有数据。对于之前未按指定键聚类的大型表，此操作可能需要数小时。

首次启用群集或更改群集键时运行 OPTIMIZE FULL。如果之前已运行 OPTIMIZE FULL，并且群集键没有更改，则 OPTIMIZE FULL 的运行方式与 OPTIMIZE 相同。在此方案中， OPTIMIZE 使用增量方法，仅重写以前未压缩的文件。始终使用 OPTIMIZE FULL，以确保数据布局反映当前聚类分析键。

从聚类分析表读取数据

可以使用支持读取删除向量的任何 Delta Lake 客户端读取聚集 Delta 表中的数据。使用 Iceberg REST 目录 API，可以在聚集的 Iceberg 表中读取数据。

SELECT * FROM table_name WHERE cluster_key_column_name = "some_value";

更改聚类分析键

可以通过运行 ALTER TABLE 命令随时更改表的聚类分析键，如以下示例所示：

ALTER TABLE table_name CLUSTER BY (new_column1, new_column2);

更改聚类分析键后，后续 OPTIMIZE 和写入操作将使用新的聚类分析方法，但不会重写现有数据。

还可以通过将键设置为 NONE 来关闭聚类分析，如以下示例所示：

ALTER TABLE table_name CLUSTER BY NONE;

将聚类分析键设置为 NONE 不会重写已聚类分析的数据，但会阻止将来的 OPTIMIZE 操作使用聚类分析键。

使用来自外部引擎的液体聚类分析

可以从外部 Iceberg 引擎在托管的 Iceberg 表上启用液体聚类分析。若要启用液体聚类分析，请在创建表时指定分区列。 Unity 目录将分区解释为聚类键。例如，在 OSS Spark 中运行以下命令：

CREATE OR REPLACE TABLE main.schema.icebergTable
PARTITIONED BY c1;

可以禁用液体聚类。

ALTER TABLE main.schema.icebergTable DROP PARTITION FIELD c2;

可以使用 Iceberg 分区演变来更改聚类键。

ALTER TABLE main.schema.icebergTable ADD PARTITION FIELD c2;

如果使用桶转换指定分区，Unity Catalog 将删除该表达式，并将该列用作聚类键。

CREATE OR REPLACE TABLE main.schema.icebergTable
PARTITIONED BY (bucket(c1, 10));

查看表的聚类分析方式

可以使用 DESCRIBE 命令查看表的聚类分析键，如以下示例所示：

DESCRIBE TABLE table_name;

DESCRIBE DETAIL table_name;

表与 liquid 聚类分析的兼容性

默认情况下，在 Databricks Runtime 14.1 及更高版本中使用 liquid 聚类分析创建的表会使用 v2 检查点。可以使用 Databricks Runtime 13.3 LTS 及更高版本中的 v2 检查点对表进行读取和写入。

可以禁用 v2 检查点和降级表协议，以读取 Databricks Runtime 12.2 LTS 及更高版本中具有 liquid 聚类分析的表。请参阅删除 Delta Lake 表功能并降级表协议。

限制

存在以下限制：

在 Databricks Runtime 15.1 及更低版本中，写入时聚类分析不支持包含筛选器、联接或聚合的源查询。
在 Databricks Runtime 15.4 LTS 及更低版本中，无法使用结构化流式处理写入创建启用了 liquid 聚类分析的表。可以使用结构化流式处理将数据写入启用了 liquid 聚类分析的现有表。
托管的 Iceberg 表不支持行级并发，因为 Iceberg 表不支持删除向量和行跟踪。

通过

使用液态聚类对表进行分析

Liquid 聚类分析的用途是什么？

启用 liquid 聚类分析

SQL

Python

Scala(编程语言)

SQL

Python

Scala(编程语言)

自动液体聚类分析

启用或禁用自动液体聚类分析

SQL

Python

检查是否启用了自动聚类分析

限制

替代默认功能启用（可选）

选择群集键

将数据写入聚类分析表

如何触发聚类分析

强制对所有记录重新聚类

从聚类分析表读取数据

更改聚类分析键

使用来自外部引擎的液体聚类分析

查看表的聚类分析方式

表与 liquid 聚类分析的兼容性

限制

其他资源