优化

适用于：勾选“是” Databricks SQL Databricks Runtime

优化 Delta Lake 数据的布局。（可选）优化数据子集或按列并置数据。如果未指定并置，并且表未使用 Liquid 聚类分析定义，则执行装箱打包优化。

语法

OPTIMIZE table_name [FULL] [WHERE predicate]
  [ZORDER BY (col_name1 [, ...] ) ]

注意

二进制打包优化幂等，这意味着如果在同一数据集上运行两次，则第二次运行不起作用。它旨在根据文件在磁盘上的大小生成均衡的数据文件，但不一定是每个文件的元组数。但是，这两个度量值通常是相关的。
Z 排序不是幂等的，而应该是增量操作。多次运行不能保证 Z 排序所需的时间减少。但是，如果没有将新数据添加到刚刚进行 Z 排序的分区，则该分区的另一个 Z 排序将不会产生任何效果。它旨在根据元组的数量生成均衡的数据文件，但不一定是磁盘上的数据大小。这两个度量值通常是相关的，但可能会有例外的情况，导致优化任务时间出现偏差。

注意

使用 Databricks Runtime 时，若要控制输出文件大小，请设置 Spark 配置spark.databricks.delta.optimize.maxFileSize。默认值为 1073741824，该值会将大小设置为 1 GB。指定值 104857600 会将文件大小设置为 100 MB。

重要

使用 delta.parquet.compression.codec 属性更改表的压缩编解码器时，不会自动重新压缩现有数据文件。若要使用所选压缩格式重新压缩现有数据，请运行 OPTIMIZE table_name FULL （Databricks Runtime 16.0 及更高版本）：

-- Change compression codec
ALTER TABLE table_name SET TBLPROPERTIES ('delta.parquet.compression.codec' = 'ZSTD');

-- Recompress all existing data files
OPTIMIZE table_name FULL;

参数

table_name

标识现有的 Delta 表。名称不得包含时态规范或选项规范。
FULL

适用于：Databricks Runtime 16.0 及更高版本

重写表中的所有数据文件。使用 OPTIMIZE table_name FULL 来：
- 优化整个表，包括以前可能已聚集的数据（对于使用液体聚类分析的表）。
- 使用 delta.parquet.compression.codec 属性更改表的压缩编解码器时，重新压缩现有数据文件。
WHERE

优化与给定分区谓词匹配的行子集。仅支持涉及分区键属性的筛选器。

无法对使用 Liquid 聚类分析的表使用此子句。
ZORDER BY

将列信息并置在同一组文件中。 Delta Lake 数据跳过算法会使用并置，大幅减少需要读取的数据量。可以将 ZORDER BY 的多个列指定为以逗号分隔的列表。但是，区域的有效性会随每个附加列降低。

无法对使用 Liquid 聚类分析的表使用此子句。

示例

> OPTIMIZE events;

> OPTIMIZE events FULL;

> OPTIMIZE events WHERE date >= '2017-01-01';

> OPTIMIZE events
    WHERE date >= current_timestamp() - INTERVAL 1 day
    ZORDER BY (eventType);

有关 OPTIMIZE 命令的详细信息，请参阅优化数据文件布局。

Last updated on 2025-11-27

通过

优化

语法

参数

示例

其他资源