在混合搜索中使用互相排名融合 (RRF) 进行相关性评分

注释

Azure AI 搜索可通过Azure门户、REST API 和Azure SDK获取。

倒数排名融合（RRF）是一种算法，用于对多个先前已排序结果的搜索得分进行评估，从而生成一个统一的结果集。在Azure AI 搜索中，当两个或多个查询并行执行（例如混合查询和多个矢量查询）时，将使用 RRF。每个单个查询都会生成一个排名结果集，RRF 将这些排名合并并同质化为查询响应的单个结果集。

RRF 基于“互惠排名”的概念，即搜索结果列表中第一个相关文档排名的倒数。该方法的目标是考虑项目在原始排名中的位置，并给予在多个列表中排名较高的项的更高重要性。此方法可以帮助提高最终排名的整体质量和可靠性，使它更适用于融合多个有序搜索结果的任务。

RRF 排名的工作原理

RRF 的工作方式是获取来自多种方法的搜索结果，为结果中的每个文档分配一个倒数排名分数，然后将这些分数结合起来创建一个新的排名。其概念是，在多个搜索方法中出现在顶部位置的文档很可能相关度更高，因此应在合并结果中排名较高。

下面是 RRF 过程的简要说明：

从并行运行的多个查询中获取排名搜索结果。
为每个排名列表中的结果分配倒数排名分数。 RRF 在每个结果集中的每个匹配项中生成一个新的 @search.score。对于搜索结果中的每个文档，引擎基于其在列表中的位置分配倒数排名分数。分数计算为 1/(rank + k)，其中 rank 文档在列表中的位置是 k 常量。试验显示当设置为 k 小值（如 60）时算法的性能最佳。 此值 k 是 RRF 算法中的常量，与控制最接近的邻居数完全分开 k 。
合并分数。对于每个文档，引擎将从每个搜索系统中获得的倒数排名分数相加，为每个文档生成合并分数。
引擎根据合并分数对文档进行排名和排序。生成的列表是融合排名。

只有索引中标记为 searchable 或查询中标记为 searchFields 的字段才用于评分。搜索结果中仅返回标记为 retrievable 的字段或在查询中的 select 中指定的字段，还会返回它们的搜索分数。

并行查询执行

每当有多个查询执行时，都会使用 RRF。下面的示例演示了出现并行查询执行时的查询模式：

全文查询以及一个矢量查询（简单的混合方案），等于两个查询执行。
全文查询，加上一个面向两个向量字段的矢量查询，等于三个查询执行。
全文查询，加上面向五个向量字段的两个矢量查询，等于 11 个查询执行。

混合搜索结果中的分数

每当结果排名时，该 @search.score 属性都包含用于对结果进行排序的值。分数是由每种方法的排名算法生成的。每种算法都有自己的范围和幅度。

下表列出了每个匹配项和算法返回的评分属性，以及每种相关性排名算法的分数范围。有关详细信息和评分工作流的关系图，请参阅 Azure AI 搜索中的相关性。

搜索方法	参数	评分算法	范围
全文搜索	`@search.score`	BM25 算法	没有上限。
矢量搜索	`@search.score`	HNSW 算法，使用 HNSW 配置中指定的相似性指标。	0.333 - 1.00（余弦），0 到 1（欧几里德和点积）。
混合搜索	`@search.score`	RRF 算法	上限由正在融合的查询数限制，每个查询的最大贡献量约为 `1/k` RRF 分数（这是 `k` RRF 算法中的参数，而不是矢量查询）。例如，合并三个查询会产生比合并两个搜索结果时更高的 RRF 分数。
语义排序	`@search.rerankerScore`	语义排序	0.00 - 4.00

语义排序在通过 RRF 合并结果之后进行。其分数（@search.rerankerScore）始终在查询响应中单独报告。语义排名器可以重新调用全文和混合搜索结果，假设这些结果包括具有语义丰富的内容的字段。如果搜索文档包含包含语义相关内容的文本字段，则它可以重新调整纯矢量查询。

将搜索分数分解为子分数

可以析构搜索分数以查看其子分数。对于矢量查询，此信息可以帮助你确定适合矢量加权的值或设置最小阈值。

获取子评分：

使用搜索文档 REST API 或提供该功能的 Azure SDK 包。
修改查询请求，新增一个 debug 参数，并将其设置为 vector、如果使用语义排序器则设为 semantic，或设为 all。

下面是在调试模式下返回子分数的混合查询示例：

POST https://{{search-service-name}}.search.azure.cn/indexes/{{index-name}}/docs/search?api-version=2026-04-01

{
    "vectorQueries": [
        {
            "vector": [
                -0.009154141,
                0.018708462,
                . . .
                -0.02178128,
                -0.00086512347
            ],
            "fields": "DescriptionVector",
            "kind": "vector",
            "exhaustive": true,
            "k": 10
        },
        {
            "vector": [
                -0.009154141,
                0.018708462,
                . . .
                -0.02178128,
                -0.00086512347
            ],
            "fields": "DescriptionVector",
            "kind": "vector",
            "exhaustive": true,
            "k": 10
        }
    ],
    "search": "historic hotel walk to restaurants and shopping",
    "select": "HotelName, Description, Address/City",
    "debug": "vector",
    "top": 10
}

加权分数

还可以对矢量查询进行加权，以增加或减少它们在混合查询中的重要性。

回想一下，当计算某个文档的 RRF 时，搜索引擎会查看该文档在每个结果集中的排名。假设文档显示在三个单独的搜索结果中，这些结果来自两个矢量查询和一个文本 BM25 排名查询。文档的位置因每个结果而异。

已找到匹配项	结果中的位置	@search.score	权重乘数	@search.score（加权）
矢量结果 1	位置 1	0.8383955	0.5	0.41919775
向量结果 2	位置 5	0.81514114	2.0	1.63028228
BM25 结果	位置 10	0.8577363	NA	0.8577363

每个结果集中的文档位置对应于初始分数，这些分数相加得到该文档最终的 RRF 分数。

如果添加了矢量加权，则初始分数会受到加权乘数的影响，它会增加或减少分数。默认值为 1.0，这意味着没有权重，初始分数按原样用于 RRF 评分。但是，如果添加了 0.5 的权重，则分数会降低，并且结果在组合排名中的重要性会降低。相反，如果添加了 2.0 的权重，则分数会成为整体 RRF 分数中的较大因素。

在此示例中， @search.score （加权）值将转到 RRF 排名模型。

混合查询响应中的排名结果数

默认情况下，如果不使用分页，搜索引擎将返回全文搜索的前 50 个最高排名匹配项，以及矢量搜索最相似的 k 匹配项。在混合查询中，top 决定了响应中的结果数。默认情况下，会返回合并后的结果集中排名最高的前 50 个匹配项。

通常，搜索引擎会比 top 和 k 查找到更多结果。要返回更多结果，请使用分页参数 top、skip 和 next。分页是确定每个逻辑页面上的结果数并浏览完整有效负载的方式。可以将 maxTextRecallSize 设置为较大的值（默认值为 1,000），以从混合查询的文本端返回更多结果。

默认情况下，全文搜索的最大限制为 1,000 个匹配项（请参阅 API 响应限制）。找到 1,000 个匹配项后，搜索引擎便不再进行查找。

有关详细信息，请参阅如何处理搜索结果。

Last updated on 2026-07-27