查找表的大小

本文介绍如何查找表的大小。

所使用的命令取决于是要查找 delta 表还是非 delta 表的大小。

delta 表的大小

若要查找 delta 表的大小,可以使用 Apache Spark SQL 命令。

import com.databricks.sql.transaction.tahoe._
val deltaLog = DeltaLog.forTable(spark, "dbfs:/<path-to-delta-table>")
val snapshot = deltaLog.snapshot               // the current delta table snapshot
println(s"Total file size (bytes): ${deltaLog.snapshot.sizeInBytes}")

非 delta 表的大小

可以通过计算基础目录中各个文件的总和来确定非 delta 表的大小。

还可以使用 queryExecution.analyzed.stats 返回大小。

spark.read.table("<non-delta-table-name>").queryExecution.analyzed.stats