矢量搜索中的相关性

在执行矢量查询期间，搜索引擎会查找相似的矢量，以找到要在搜索结果中返回的最佳候选项。根据对向量内容编制索引的方式，对相关匹配项的搜索是详尽的，也可以限制为最近的邻居，以便更快地进行处理。找到候选项时，将使用相似性指标根据匹配强度对每个结果进行评分。

本文介绍用于查找相关匹配项和用于评分的相似性指标的算法。本文还介绍了搜索结果不符合预期时关于提高相关性的提示。

矢量搜索中使用的算法

矢量搜索算法包括：

详尽的 K-近邻（KNN），对整个矢量空间执行暴力扫描。
分层导航小型世界（HNSW），执行近似近邻（ANN）搜索。

在索引中标记为searchable或在查询中标记为searchFields的矢量字段仅用于搜索和评分。

关于详尽的 KNN

穷举 KNN 计算所有数据点对之间的距离，并查找查询点的精确 k 最近的邻域。由于算法不需要快速随机访问数据点，KNN 不使用矢量索引大小配额。然而，它提供最近邻的全局集合。

详尽的 KNN 是计算密集型的，因此将其用于中小型数据集，或者当精度需求超过查询性能需求时。另一个用例是生成数据集来评估 ANN 算法的召回率，因为穷尽的 KNN 可用于构建最近邻居的基准数据集。

关于 HNSW

HNSW 是一种 ANN 算法，针对具有未知或易失性数据分布的高召回率、低延迟应用程序进行优化。在编制索引期间，HNSW 会创建额外的数据结构，用于将数据点组织到分层图中。在查询执行期间，HNSW 会浏览此图以查找最相关的匹配项，从而实现最接近的邻居搜索。

HNSW 要求所有数据点驻留在内存中，以便进行快速随机访问，从而消耗矢量索引大小配额。此设计平衡了搜索准确性与计算效率，并使 HNSW 适用于大多数方案，尤其是在搜索较大的数据集时。

HNSW 提供了多个无法调整的配置参数，以优化搜索应用程序的吞吐量、延迟和召回率。例如，指定 HNSW 的字段还支持使用查询请求参数 "exhaustive": true进行完全的 KNN。但是，为 exhaustiveKnn HNSW 查询编制索引的字段不支持 HNSW 查询，因为启用高效搜索的额外数据结构不存在。

关于 ANN

ANN 是一类算法，用于在矢量空间中查找匹配项。此类算法使用不同的数据结构或数据分区方法来显著减少搜索空间并加速查询处理。

ANN 算法会牺牲一些准确性，但提供可缩放且更快的近邻检索，这使得它们非常适合在现代信息检索应用程序中平衡准确性和效率。可以调整算法的参数，以微调搜索应用程序的召回率、延迟、内存和磁盘占用需求。

Azure AI 搜索将 HNSW 用于其 ANN 算法。

最近邻搜索的工作原理

矢量查询针对由同一嵌入模型生成的矢量组成的嵌入空间执行。通常，查询请求中的输入值会被传递到生成矢量索引中嵌入的同一机器学习模型。输出是同一嵌入空间中的矢量。由于相似的矢量紧密地聚类到一起，因此查找匹配项相当于查找最接近查询矢量的矢量，并将相关文档作为搜索结果返回。

例如，如果查询请求与酒店有关，则模型会将查询映射到表示有关酒店的文档的矢量聚类中某个位置处存在的矢量。根据相似性指标识别哪些矢量与查询最相似可以确定哪些文档最相关。

当矢量字段针对穷举 KNN 编制了索引时，查询将针对“所有邻居”执行。对于针对 HNSW 编制了索引的字段，搜索引擎将使用 HNSW 图形来搜索矢量索引中的一部分节点。

创建 HNSW 图形

在索引编制期间，搜索服务将构造 HNSW 图。将新向量索引到 HNSW 图形的目标是以支持高效最近的邻居搜索的方式将其添加到图形结构。以下步骤概述了这一过程：

初始化：从一个空的 HNSW 图形开始，如果索引不是新索引，则从现有的 HNSW 图形开始。
入口点：这是分层图形的最高级别，充当索引编制的起点。
添加到图形：不同的分层级别代表图形的不同粒度，级别越高，全局性越大，级别越低，粒度越小。图形中的每个节点代表一个矢量点。
- 每个节点最多连接到附近的 m 个邻居。这是 m 参数。
- 该 efConstruction 参数决定被视为候选连接的数据点数量。此动态列表形成了现有图形中的最近点集，供算法考虑。 efConstruction 值越大，要考虑的节点就越多，这通常会导致每个矢量出现更密集的局部邻域。
- 这些连接使用配置的相似性 metric 来确定距离。某些连接是跨不同分层级别进行连接的“远距离”连接，在图形中会创建快捷方式来增强搜索效率。
图形修剪和优化：这可以在为所有矢量编制索引之后发生，并可以提高 HNSW 图形的可导航性和效率。

在查询时导航 HNSW 图形

矢量查询遍历分层图结构以寻找匹配项。以下步骤概述了这一过程：

初始化：算法在分层图形的最高级别启动搜索。此入口点包含用作搜索起点的矢量集。
遍历：接下来，它会逐层遍历图的层级，从顶层导航到下层。它根据配置的距离指标（如余弦相似性）选择离查询向量更近的候选节点。
修剪：为了提高效率，此算法通过仅考虑可能包含最近邻域的节点来修剪搜索空间。它维护一个潜在候选者的优先级队列，并随着搜索的进行对其进行更新。该队列的长度由参数 efSearch 配置。
优化：随着算法移动到较低、更精细的级别，HNSW 会考虑查询附近的更多邻居。此注意事项允许优化候选矢量集，从而提高准确性。
完成：当确定最接近邻居的所需数量或满足其他停止条件时，搜索将完成。查询时参数 k 控制此所需最近的邻居数。

用于度量接近度的相似性指标

该算法将查找候选矢量来评估相似性。为了执行此任务，相似性指标计算会将候选矢量与查询矢量进行比较，并度量相似性。该算法跟踪它找到的大多数相似向量的有序集，这在算法达到完成时形成排名结果集。

度量	说明
`cosine`	此指标度量两个矢量之间的角度，并且不受不同矢量长度的影响。从数学上讲，它会计算两个矢量之间的角度。
`dotProduct`	此指标测量两个向量每对的长度及其之间的角度。从数学上讲，它会计算矢量的大小及其之间的角度的乘积。对于规范化向量，此指标与 `cosine` 相似性相同，但性能略高。
`euclidean`	（也称为 `l2 norm`）此指标度量两个矢量之间的矢量差长度。从数学上讲，它会计算两个矢量之间的欧几里得距离，即两个矢量之差的 l2-范数。

注意

如果并行运行两个或多个矢量查询，或者执行混合搜索，将矢量和文本查询合并在同一请求中，则使用倒数排名融合 (RRF) 对最终搜索结果进行评分。

矢量搜索结果中的评分

系统计算并为每个匹配项分配分数。最高匹配项以k的形式返回结果。 @search.score 属性包含分数。下表显示了分数下降的范围。

搜索方法	参数	评分指标	范围
矢量搜索	`@search.score`	余弦	0.333 - 1.00

cosine指标中计算的@search.score不是查询向量与文档向量之间的余弦值。相反，Azure AI 搜索会应用转换，以便分数函数单调递减。分数值总是随着相似性变得更糟而减少。这种转换确保搜索分数可用于排名目的。

相似性评分存在一些细微差别：

余弦相似性定义为两个矢量之间角度的余弦。
余弦距离定义为 1 - cosine_similarity。

若要创建单调递减函数，需将 @search.score 定义为 1 / (1 + cosine_distance)。

如果需要余弦值而不是合成值，请使用公式将搜索分数转换回余弦距离：

double ScoreToSimilarity(double score)
{
    double cosineDistance = (1 - score) / score;
    return  -cosineDistance + 1;
}

使用原始余弦值对于设置阈值来剪裁低质量结果的自定义解决方案非常有用。