优化

适用于：勾选“是” Databricks SQL Databricks Runtime

OPTIMIZE 优化 Delta Lake 数据的布局。可以按列优化数据子集或并置数据。如果未指定并置，并且表不使用液体聚类分析，Delta Lake 将执行垃圾箱打包优化。

语法

OPTIMIZE table_name [FULL] [WHERE predicate]
  [ZORDER BY (col_name1 [, ...] ) ]

注意

装箱优化是幂等的：如果在同一数据集上运行两次，则第二次运行不起作用。它根据磁盘的大小生成均匀均衡的数据文件，但不一定是每个文件的元组数。这两个度量值最常相关。

Z 排序 不是幂等的，而是以增量方式运行。 Z 排序所花费的时间不能保证在多个运行中减少。但是，如果未向仅 Z 排序的分区添加新数据，则再次在该分区上运行 Z 排序不起作用。 Z 排序在元组数方面生成均匀均衡的数据文件，但不一定是磁盘上的数据大小。这两个度量值最常见的是相关的，但在优化任务时间中倾斜时，它们可能会发生分歧。

注意

使用 Databricks Runtime 时，若要控制输出文件大小，请设置 Spark 配置spark.databricks.delta.optimize.maxFileSize。默认值为 1073741824 （1 GB）。指定 104857600 将文件大小设置为 100 MB。

参数

table_name

标识现有的 Delta 表。名称不得包含时态规范或选项规范。
FULL

适用于：Databricks Runtime 16.0 及更高版本

重写表中的所有数据文件。使用 OPTIMIZE table_name FULL 来：
- 优化整个表，包括以前聚集的数据（对于使用液体聚类分析的表）。
- 使用 delta.parquet.compression.codec 属性更改表的压缩编解码器时，重新压缩现有数据文件。
若要在更改压缩编解码器后重新压缩现有数据，请运行 OPTIMIZE table_name FULL：
```
-- Change compression codec
ALTER TABLE table_name SET TBLPROPERTIES ('delta.parquet.compression.codec' = 'ZSTD');

-- Recompress all existing data files
OPTIMIZE table_name FULL;
```
若要优化启用了液体聚类分析的表中文件的子集，请结合FULLWHERE谓词（Databricks Runtime 18.1 及更高版本）。仅支持单个聚类分析列上的简单范围谓词。如果文件的任何部分与谓词重叠，则包含该文件。例如， OPTIMIZE events FULL WHERE date > 15 包括包含范围 (col_min = 10, col_max = 20) 的文件，因为该文件的范围与谓词重叠。
WHERE

优化与分区/聚类谓词匹配的行子集。仅支持分区/聚类分析键属性上的筛选器。

对于使用液体聚类分析的表，请改用 OPTIMIZE table_name FULL WHERE predicate （Databricks Runtime 18.1 及更高版本）。
ZORDER BY

注意

Databricks 建议对所有新表进行液体聚类分析，而不是 Z 排序。请参阅对表使用 liquid 聚类分析。

在同一组文件中并置列信息。 Delta Lake 数据跳过算法使用共同区域来减少需要读取的数据量。可以将多个列指定为逗号分隔列表，但共同区域的有效性会随着每个附加列而减少。

不能对使用液体聚类分析的表使用此子句。

示例

> OPTIMIZE events;

> OPTIMIZE events FULL;

> -- Partitioned table
> OPTIMIZE events WHERE date >= '2017-01-01';

> -- Table with liquid clustering enabled (DBR 18.1 and above)
> OPTIMIZE events FULL WHERE date >= '2025-01-01';

> OPTIMIZE events
    WHERE date >= current_timestamp() - INTERVAL 1 day
    ZORDER BY (eventType);

有关详细信息，请参阅 “优化数据文件”布局。

Last updated on 2026-07-13

优化

语法

参数

示例

其他资源