`approx_top_k` 聚合函数

适用于：勾选“是” Databricks SQL Databricks Runtime 10.4 LTS 及更高版本

返回 k 中最常出现的前 expr 个项目值及其近似计数。

语法

approx_top_k(expr[, k[, maxItemsTracked]]) [FILTER ( WHERE cond ) ]

还可以使用子句将此函数作为OVER调用。

参数

expr：STRING、BOOLEAN、DATE、TIMESTAMP 或数值类型的表达式。
k：大于 0 的可选整数文本。如果未指定 k，则默认为 5。
maxItemsTracked：大于或等于 k 的可选 INTEGER 字面值。如果未指定 maxItemsTracked，则默认为 10000。
cond：一个可选的布尔表达式，可筛选用于聚合的行。

结果以 STRUCT 类型的 ARRAY 形式返回，其中每个 STRUCT 包含值的 item 字段（具有其原始输入类型）和 count 字段（LONG 类型）以及出现的近似次数。数组按 count 降序排序。

此聚合函数返回表达式 k 中最常出现的前 expr 个项目值及其近似计数。每个计数的错误最高可以为 2.0 * numRows / maxItemsTracked，其中 numRows 是总行数。较高的 maxItemsTracked 值可提供更好的准确性，但会增加内存使用量。具有少于 maxItemsTracked 个不同项目的表达式将产生准确的项目计数。结果在结果中包含 NULL 值作为它们自己的项目。

常见错误条件

示例

> SELECT approx_top_k(expr) FROM VALUES (0), (0), (1), (1), (2), (3), (4), (4) AS tab(expr);
 [{'item':4,'count':2},{'item':1,'count':2},{'item':0,'count':2},{'item':3,'count':1},{'item':2,'count':1}]

> SELECT approx_top_k(expr, 2) FROM VALUES ('a'), ('b'), ('c'), ('c'), ('c'), ('c'), ('d'), ('d') AS tab(expr);
 [{'item':'c','count',4},{'item':'d','count':2}]

> SELECT approx_top_k(expr, 10, 100) FROM VALUES (0), (1), (1), (2), (2), (2) AS tab(expr);
 [{'item':2,'count':3},{'item':1,'count':2},{'item':0,'count':1}]

Last updated on 2026-05-20

approx_top_k 聚合函数

语法

参数

返回

常见错误条件

示例

相关函数

其他资源

`approx_top_k` 聚合函数