清空

清除与表关联的文件。 对于 Delta 和 Apache Spark 表,此命令有不同版本。

清空 Delta 表(Azure Databricks 上的 Delta Lake)

VACUUM [ [db_name.]table_name | path] [RETAIN num HOURS] [DRY RUN]

以递归方式清空与 Delta 表关联的目录,并删除不再处于表事务日志最新状态且超过保留期阈值的数据文件。 根据从 Delta 的事务日志中以逻辑方式删除文件的时间和保留时间(而不是其在存储系统上的修改时间戳)删除这些文件。

默认阈值为 7 天。 Azure Databricks 不会对 Delta 表自动触发 VACUUM 操作。 请参阅删除 Delta 表不再引用的文件

如果对 Delta 表运行 VACUUM,则将无法再回头按时间顺序查看在指定数据保留期之前创建的版本。

RETAIN num HOURS

保留期阈值。

DRY RUN

返回要删除的文件的列表。

清空 Spark 表

VACUUM [ [db_name.]table_name | path] [RETAIN num HOURS]

RETAIN num HOURS

保留期阈值。

以递归方式清空与 Spark 表关联的目录,并删除超过保留期阈值的未提交文件。 默认阈值为 7 天。 Azure Databricks 在数据写入时自动触发 VACUUM 操作。 请参阅清除未提交的文件