矢量索引大小和限制

注意

Azure AI 搜索可通过Azure门户、REST API 和Azure SDK获取。

对于每个矢量字段，Azure AI 搜索使用字段上指定的算法参数构造内部矢量索引。由于 Azure AI 搜索对矢量索引大小施加了配额，因此你应了解如何估算和监视矢量大小，以确保持在限制范围内。

在内部，搜索索引的物理数据结构包括：

原始内容（用于检索需要非肯化内容的模式）
倒排索引（用于可搜索文本字段）
矢量索引（用于可搜索矢量字段）

本文介绍对支持每个矢量字段的内部矢量索引的限制。

提示

矢量优化技术通常可用。使用窄数据类型、标量和二进制量化以及消除冗余存储等功能，以减少矢量配额和存储配额消耗。

有关配额和矢量索引大小的要点

矢量索引大小以字节为单位。
您的服务的总存储包含所有的向量索引文件。 Azure AI 搜索出于不同目的维护矢量索引文件的不同副本。我们提供了其他选项，通过消除其中一些副本来减少矢量索引的存储开销。
每个分区在整个搜索服务上强制实施向量配额。如果添加分区，矢量配额也会增加。在较新的服务中，每个分区的向量配额更高。有关详细信息，请参阅矢量索引大小限制。
并非所有算法都消耗矢量索引大小配额。矢量配额是根据近似近邻（ANN）搜索的内存要求建立的。使用分层导航小型世界（HNSW）算法创建的矢量字段需要在查询执行期间驻留在内存中，因为基于图形的遍历的随机访问性质。使用详尽的 K-Nearest Neighbors （KNN）算法的向量字段在查询执行期间动态加载到页面中，因此不会使用矢量配额。

检查分区大小和数量

如果不确定你的搜索服务的限制，可通过以下两种方法获取该信息：

在 Azure 门户中的“搜索服务概述 ”页上，“ 属性 ”选项卡和“ 使用情况 ”选项卡都显示分区大小和存储，以及向量配额和矢量索引大小。
在 Azure 门户中的 “缩放 ”页上，可以查看分区的数量和大小。

检查矢量索引大小

请求矢量指标是数据平面操作。可以使用 Azure 门户、REST API 或 Azure SDK 通过服务统计信息和单个索引在服务级别获取矢量使用情况。

门户
休息

每个索引的矢量大小

若要获取每个索引的矢量索引大小，请选择“搜索管理”“索引”，查看索引列表和文档计数、内存中矢量索引的大小以及磁盘上存储的总索引大小。>

回想一下，矢量配额基于内存约束。对于使用 HNSW 算法创建的矢量索引，所有可搜索矢量索引都会永久加载到内存中。对于使用穷举 KNN 算法创建的索引，矢量索引在查询期间按顺序以区块方式加载。对于穷举 KNN 索引，没有内存驻留要求。已加载到内存中的页面的生存期类似于文本搜索，对于穷举 KNN 索引，除了总存储外，没有其他指标适用。

以下屏幕截图显示了同一矢量索引的两个版本。一个版本是使用 HNSW 算法创建的，其中矢量图驻留在内存中。另一个版本是使用穷举 KNN 算法创建的。使用穷举 KNN 时，没有专门的内存中矢量索引，因此门户显示矢量索引大小为 0 MB。这些矢量仍存在并按总体存储大小进行计数，但它们不占用矢量索引大小指标跟踪的内存中资源。

每个服务的矢量大小

若要获取整个搜索服务的矢量索引大小，请选择“概述”页的“使用情况”选项卡。门户页面每隔几分钟会刷新一次，因此，如果最近更新了索引，请在检查结果之前稍等片刻。

以下屏幕截图显示了一个较旧的标准 1 (S1) 搜索服务，该服务配置为一个分区和一个副本。

存储配额是磁盘约束，它包含搜索服务上的所有索引（向量和非矢量）。
矢量索引大小配额是内存约束。它是加载为搜索服务上每个向量字段创建的所有内部向量索引所需的内存量。

屏幕截图指示索引（向量和非矢量）消耗了将近 460 MB 字节的可用磁盘存储。矢量索引在服务级别消耗了将近近 93 MB 字节的内存。

添加或删除分区时，存储和矢量索引大小的配额会随之增加或减少。如果更改分区计数，界面磁贴会显示相应的存储和矢量配额的变化。

注意

在磁盘上，矢量索引不是 93 MB。磁盘上的矢量索引占用的空间比内存中的矢量索引多三倍。有关详细信息，请参阅矢量字段如何影响磁盘存储。

数据平面 REST API（所有较新的 API 提供矢量使用情况统计信息）：

“获取服务统计信息”返回搜索服务的总体配额和使用量。
“获取索引统计信息”返回给定索引的使用量。

使用情况和配额的报告以字节为单位。

以下是 GET 服务统计信息：

GET {{baseUrl}}/servicestats?api-version=2026-04-01  HTTP/1.1
Content-Type: application/json
api-key: {{apiKey}}

响应包括 storageSize 的指标，但不区分矢量和非矢量索引。 vectorIndexSize 统计信息显示了服务级别的使用情况和配额。

{
    "@odata.context": "https://my-demo.search.azure.cn/$metadata#Microsoft.Azure.Search.V2023_11_01.ServiceStatistics",
    "counters": {
        "documentCount": {
            "usage": 15377,
            "quota": null
        },
        "indexesCount": {
            "usage": 13,
            "quota": 15
        },
        "knowledgeBasesCount": {
            "usage": 2,
            "quota": 10
        },
        "knowledgeSourcesCount": {
            "usage": 5,
            "quota": 30
        },
        . . .
        "storageSize": {
            "usage": 39862913,
            "quota": 2147483648
        },
        . . .
        "vectorIndexSize": {
            "usage": 2685436,
            "quota": 1073741824
        }
    },
    "limits": {
        "maxFieldsPerIndex": 1000,
        "maxFieldNestingDepthPerIndex": 10,
        "maxComplexCollectionFieldsPerIndex": 40,
        "maxComplexObjectsInCollectionsPerDocument": 3000
    }
}

还可以发送 GET 索引统计信息以获取磁盘上的索引的物理大小，以及矢量字段的内存中大小。

GET {{baseUrl}}/indexes/vector-healthplan-idx/stats?api-version=2026-04-01  HTTP/1.1
Content-Type: application/json
api-key: {{apiKey}}

响应包括索引级别的使用情况信息。此示例基于快速入门：矢量搜索中创建的索引，该索引对医疗计划PDF进行分块和向量化。每个区块都贡献了 documentCount。

{
    "@odata.context": "https://my-demo.search.azure.cn/$metadata#Microsoft.Azure.Search.V2023_11_01.IndexStatistics",
    "documentCount": 147,
    "storageSize": 4592870,
    "vectorIndexSize": 915484
}

影响矢量索引大小的因素

影响内部矢量索引大小的三个主要因素：

数据的原始大小
所选算法的开销
删除或更新索引中的文档所产生的开销

数据的原始大小

每个矢量通常是单精度浮点数的数组，位于类型为 Collection(Edm.Single) 的字段中。

矢量数据结构需要存储，在以下计算公式中表示为数据的“原始大小”。使用此原始大小来估算矢量字段的矢量索引大小要求。

一个向量的维度决定了其存储大小。将一个矢量的大小乘以包含该矢量字段的文档数即可得出原始大小：

raw size = (number of documents) * (dimensions of vector field) * (size of data type)

EDM 数据类型	数据类型的大小
`Collection(Edm.Single)`	4 个字节
`Collection(Edm.Half)`	2 个字节
`Collection(Edm.Int16)`	2 个字节
`Collection(Edm.SByte)`	1 个字节

所选算法中的内存开销

每个 ANN 算法都会在内存中生成额外的数据结构，以实现高效的搜索。这些结构会消耗额外的内存空间。

对于 HNSW 算法，未压缩的 float32（Edm.Single）矢量的内存开销范围为 1% 到 20%。

随着维度的增加，内存开销百分比会减少。之所以发生这种情况，是因为矢量的原始大小增加，而存储图形连接信息的其他数据结构则保持给定 m的固定大小。因此，随着总体矢量大小的增加，这些额外数据结构的相对影响会减小。

内存开销随着 HNSW 参数 m的较大值增加，该参数指定在索引构造期间为每个新向量创建的双向链接数。发生这种情况是因为每个链接为每个文档贡献大约 8 到 10 个字节，总开销与 m 成比例地增长。

下表汇总了未压缩矢量字段的内部测试中观察到的开销百分比：

维度	HNSW 参数（m）	开销百分比
96	4	20%
200	4	8%
768	4	2%
1536	4	1%
3072	4	0.5%

这些结果展示了 HNSW 算法的维度、HNSW 参数 m 和内存开销之间的关系。

对于使用压缩技术（如标量或二进制量化）的矢量字段，开销百分比似乎消耗了总矢量索引大小的更大百分比。随着数据的大小减少，用于存储图形连接信息的固定大小数据结构的相对影响将变得更加重要。

删除或更新索引中的文档所产生的开销

删除或更新包含矢量字段的文档时（更新在内部表示为删除和插入操作），基础文档将被标记为已删除，并在后续查询期间被跳过。随着新文档编制索引并且内部矢量索引不断增长，系统会清理这些已删除的文档并回收资源。这意味着，您可能会在删除文档与基础资源被释放之间观察到时延。

我们将此称为“已删除的文档比率”。由于已删除的文档比率取决于服务的索引编制特征，因此没有通用的启发式方法来估算此参数，并且没有任何 API 或脚本可以返回服务的实际比率。我们已观察到，有一半客户的文档删除比率低于 10%。如果你倾向于执行高频率的删除或更新，则可能会观察到较高的已删除文档比率。

这是影响矢量索引大小的另一个因素。遗憾的是，没有任何一种机制可以显示当前的已删除文档比率。

估计内存中数据的总大小

考虑到前面描述的因素，若要估计矢量索引的总大小，请使用以下计算方法：

(raw_size) * (1 + algorithm_overhead (in percent)) * (1 + deleted_docs_ratio (in percent))

例如，若要计算 raw_size，假设你使用的是一个常用的 Azure AI 服务模型， text-embedding-ada-002 其中包含 1,536 个维度。这意味着一个文档将消耗 1,536 个 Edm.Single（浮点数），即 6,144 个字节，因为每个 Edm.Single 为 4 个字节。包含单个 1,536 维矢量字段的 1,000 个文档总共将消耗 1000 个文档 x 1536 个浮点数/文档 = 1,536,000 个浮点数，或 6,144,000 个字节。

如果有多个矢量字段，则需要对索引中的每个矢量字段执行此计算，并将所有计算结果相加。例如，包含两个 1,536 维矢量字段的 1,000 个文档将消耗 1000 个文档 x 2 个字段 x 1536 个浮点/文档 x 4 字节/浮点 = 12,288,000 字节。

若要获取矢量索引大小，请将此 raw_size 乘以算法开销和已删除文档比率。如果所选 HNSW 参数的算法开销为 10%，而已删除的文档比率为 10%，则会得到：6.144 MB * (1 + 0.10) * (1 + 0.10) = 7.434 MB。

矢量字段如何影响磁盘存储

本文的大部分内容提供了有关内存中矢量大小的信息。有关矢量索引的存储开销的信息，请参阅从存储中消除可选的向量实例。

Last updated on 2026-07-27