Azure AI 搜索性能基准

Artículo
06/17/2024

重要

这些基准适用于 2024 年 4 月 3 日之前在旧基础结构上运行的部署中创建的搜索服务。这些基准也仅适用于非矢量工作负载。新限制的服务和工作负载有待更新。

性能基准对于评估类似配置下的潜在性能非常有用。实际性能取决于多种因素，包括搜索服务的大小以及要发送的查询的类型。

为帮助估计工作负载所需的搜索服务大小，我们运行了多种基准来记录不同搜索服务和配置的性能。

为涵盖一系列不同用例，我们针对两种主要场景运行了基准：

电子商务搜索 - 此基准模拟真实的电子商务场景，并基于北欧电子商务公司 CDON。
文档搜索 - 此场景由对 Semantic Scholar 中的全文文档的关键字搜索组成。这模拟的是常见文档搜索解决方案。

尽管这些场景反映了不同的用例，但每种场景都不同，因此我们始终建议对单个工作负载进行性能测试。我们使用 JMeter 发布了性能测试解决方案，因此你可以针对自己的服务运行类似测试。

测试方法

为了对 Azure AI 搜索的性能进行基准测试，我们在不同层和副本/分区组合针对两种不同场景运行了测试。

创建这些基准时，使用了以下方法：

测试以每秒 X 个查询 (QPS) 的速度开始，持续 180 秒。这通常为 5 或 10 QPS。
然后，QPS 增加 X 并再次运行 180 秒
每 180 秒，测试就会增加 X QPS，直到平均延迟增加到 1000 毫秒以上或查询成功率小于 99% 为止。

下图提供了测试查询负载情况的直观示例：

示例测试

每种场景均使用了至少 10,000 个唯一的查询，以免测试因缓存而过度扭曲。

重要

这些测试仅包含查询工作负载。如果希望进行大量索引操作，请务必将其纳入估算和性能测试中。在本教程中，可以找到模拟索引编制的示例代码。

定义

最大 QPS - 最大 QPS 数基于测试中实现的最高 QPS，而该测试中 99% 的查询成功完成且未达到限制，平均延迟低于 1000 毫秒。
最大 QPS 的百分比 - 针对特定测试实现的最大 QPS 的百分比。例如，如果在特定测试中达到了最大值 100 QPS，则最大 QPS 的 20% 为 20 QPS。
延迟 - 查询的服务器延迟；这些数字不包括往返延迟 (RTT)

。值以毫秒 (ms) 为单位。

测试免责声明

azure-search-performance-testing 存储库中提供了我们用于运行这些基准测试的代码。值得注意的是，与基准相比，JMeter 性能测试解决方案的 QPS 水平略低一些。差异可能是由于测试样式不同。这说明了尽量让性能测试与生产工作负载保持相似的重要性。

重要

这些基准并不保证服务的特定性能级别，但能够让你了解可对自己的情况期望何种性能。

如果有任何疑问或疑虑，请通过 azuresearch_contact@microsoft.com 与我们联系。

基准 1：电子商务搜索

此基准与电子商务公司 CDON 合作创建，该公司是北欧地区最大的在线市场，在瑞典、芬兰、挪威和丹麦均开展业务。 CDON 通过其 1,500 位商家提供各式各样的产品类别，包含的产品超过 8 百万种。 2020 年，CDON 拥有的访客超过 1.2 亿，活跃客户达 200 万。请参阅本文，了解有关 CDON 的 Azure AI 搜索使用情况的详细信息。

为了运行这些测试，我们使用了 CDON 的生产搜索索引的快照以及对其网站的数千次唯一查询。

场景详细信息

文档计数：6,000,000
索引大小：20 GB
索引架构：一种宽索引，其中共包含 250 个字段、25 个可搜索字段以及 200 个可查找/可筛选字段
查询类型：全文搜索查询，包括 facet、筛选器、排序和计分概要文件

S1 性能

每秒查询次数

下图显示了较长时间内服务可以处理的最高查询负载，单位为每秒查询次数 (QPS)。

可维护性最高的 QPS 电子商务 s1

查询延迟

查询延迟因服务负载而异，压力越大的服务平均查询延迟越高。下表显示了三种不同利用率级别在查询延迟时间占比为 25%、50%、75%、90%、95% 和 99% 时的情况。

最大 QPS 的百分比	平均延迟	25%	75%	90%	95%	99%
20%	104 毫秒	35 毫秒	115 毫秒	177 毫秒	257 毫秒	738 毫秒
50%	140 毫秒	47 毫秒	144 毫秒	241 毫秒	400 毫秒	1175 毫秒
80%	239 毫秒	77 毫秒	248 毫秒	466 毫秒	763 毫秒	1752 毫秒

S2 性能

每秒查询次数

下图显示了较长时间内服务可以处理的最高查询负载，单位为每秒查询次数 (QPS)。

可维护性最高的 QPS 电子商务 s2

查询延迟

最大 QPS 的百分比	平均延迟	25%	75%	90%	95%	99%
20%	56 ms	21 ms	68 毫秒	106 ms	132 毫秒	210 毫秒
50%	71 毫秒	26 毫秒	83 毫秒	132 毫秒	177 毫秒	329 毫秒
80%	140 毫秒	47 毫秒	153 ms	293 毫秒	452 毫秒	924 毫秒

S3 性能

每秒查询次数

下图显示了较长时间内服务可以处理的最高查询负载，单位为每秒查询次数 (QPS)。

可维护性最高的 QPS 电子商务 s3

在本例中，我们看到，添加第二个分区会大幅增加最大 QPS，但添加第三个分区会导致边际收益递减。收益减少可能是因为所有数据都已提取到仅包含两个分区的 S3 的有效内存。

查询延迟

最大 QPS 的百分比	平均延迟	25%	75%	90%	95%	99%
20%	50 毫秒	20 ms	64 毫秒	83 毫秒	98 毫秒	160 ms
50%	62 毫秒	24 毫秒	80 ms	107 毫秒	130 毫秒	253 毫秒
80%	115 毫秒	38 毫秒	121 毫秒	218 毫秒	352 毫秒	828 毫秒