Azure AI 搜索中的服务限制

注意

Azure AI 搜索可通过Azure门户、REST API 和Azure SDK获取。

存储、工作负荷和索引数量和其他对象的最大限制取决于Azure AI 搜索服务的定价模型。

Azure AI 搜索支持定价模型，每个模型都有关联的服务层。选择的层会影响本指南中概述的服务限制。

专用：按搜索单位（SU）计量的固定定价。服务层级选项包括：基本、标准（S1-S3，包括 S3 HD）、存储优化（L1-L2），以及具有有限搜索服务功能的免费层。

订阅限制

可创建多个可计费的搜索服务（基本层和更高层级），最多可创建每个区域每层允许的服务数上限。例如，可以在基本层创建最多 16 个服务，在同一订阅和区域中的 S1 层创建另外 16 个服务。然后，您可以在另一个区域中再创建 16 个基本服务，这样在同一订阅下，基本服务总数可达到 32 个。有关服务层的详细信息，请参阅 “选择定价模型和服务层”。

可以按请求提高最大服务限制。如果需要在同一订阅中使用更多服务，请提交支持请求。

资源	免费 ¹	基本	S1	S2	S3	S3 HD	L1	L2	无服务器开发人员
每个区域的最大服务数	1	16	16	8	6	6	6	6	5
最大搜索单位数 (SU)²	非适用	3 个 SU	36 个 SU	36 个 SU	36 个 SU	36 个 SU	36 个 SU	36 个 SU	非适用

¹ 每个 Azure 订阅可以有一个免费的搜索服务。免费层基于与其他客户共享的基础结构。硬件不是专用的，因此不支持纵向扩展，并且存储限制为 50 MB。长时间处于非活动状态后，可能会删除免费搜索服务，以便为更多服务腾出空间。

² 搜索单位 (SU) 即计费单位，以副本或分区形式分配。两者都是必需项。若要了解有关 SU 组合的详细信息，请参阅估计和管理搜索服务的容量。

服务限制

在专用定价模型中，容量按副本数与分区数（搜索单位）相乘来规划。

资源	免费	基本	S1	S2	S3	S3 HD	L1	L2	无服务器开发人员
分区	非适用	3 ¹	12	12	12	3	12	12	非适用
副本	非适用	3	12	12	12	12	12	12	非适用

¹ 基本层支持三个分区和三个副本，在 2024 年 4 月 3 日之后创建的新搜索服务上总共有 9 个搜索单位（SU）。较旧的 Basic 服务仅支持一个分区和三个副本。

搜索服务受最大存储限制（分区大小乘以分区数）或最大索引数或索引器最大数量的硬性上限限制，以先达到的限制为准。

服务级别协议（SLA）适用于具有两个或多个查询工作负荷副本的计费服务，或者适用于查询和索引工作负荷的三个或更多个副本。分区数不属于 SLA 相关考虑因素。有关详细信息，请参阅 Azure AI 搜索中的可靠性。

免费服务没有固定分区或副本，并且与其他订阅者共享资源。

分区存储（GB）

每个服务存储限制因两个因素而异：服务创建日期和区域。大多数受支持的区域为较新的服务提供更高的限制。

下表显示了随时间推移存储配额以GB为单位的增长情况。从 2024 年 4 月开始，在脚注中列出的区域中，更高的容量分区处于联机状态。如果在受支持的区域中有较旧的服务，请检查是否可以升级服务以获得更高的存储限制。

服务创建日期	基本	S1	S2	S3/HD	L1	L2	无服务器开发人员
2024 年 4 月 3 日之前	2	25	100	200	1,024	2,048	非适用
2024 年 5 月 17 日之后 ²	15	160	512	1,024	2,048	4,096	非适用

² L1 和 L2 的更高容量存储。更多区域将在每个可计费层提供更高的容量。亚太地区：中国北部 3、中国东部 3。

索引限制

资源	免费	基本 ¹	S1	S2	S3	S3 HD	L1	L2	无服务器开发人员
最大索引数	3	5 或 15	50	200	200	每个分区 1000，每个服务 3000	10	10	30
每个索引的最大简单字段数目 ²	1000	100	1000	1000	1000	1000	1000	1000	1000
每个矢量场的最大维度数	4096	4096	4096	4096	4096	4096	4096	4096	4096
每个索引的复杂集合数上限	40	40	40	40	40	40	40	40	40
每个文档的所有复杂集合的最大元素数目 ³	3000	3000	3000	3000	3000	3000	3000	3000	3000
复杂字段的最大深度	10	10	10	10	10	10	10	10	10
每个索引的最大建议器数量	1	1	1	1	1	1	1	1	1
每个索引的评分配置文件上限	100	100	100	100	100	100	100	100	100
每个索引的最大语义配置	100	100	100	100	100	100	100	100	100
每个配置文件的函数数量上限	8	8	8	8	8	8	8	8	8
最大索引大小⁴	非适用	非适用	非适用	1.88 TB	2.34 TB (兆字节)	100 GB	非适用	非适用	1GB

² 在 2017 年 12 月之前创建的基本服务对索引数的限制较低（为 5 个而不是 15 个）。基本层是唯一具有下限（每个索引 100 个字段）的层级。

² 字段的上限包括复杂集合中的一级字段和嵌套子字段。例如，如果一个索引包含 15 个字段，并且有两个复杂集合，每个集合有 5 个子字段，则索引的字段计数为 25。具有大型字段集合的索引可能会很慢。将字段和属性限制为你需要的字段和属性，并运行索引和查询测试以确保性能可以接受。

³ 元素数存在上限，因为大量元素会导致索引所需的存储大量增加。复杂集合的元素定义为该集合的成员。例如，假设酒店文档具有客房集合。每个“Rooms”集合中的房间都被视为一个元素。编制索引期间，索引编制引擎一次可最多安全地处理整个文档中的 3000 个元素。中引入了api-version=2019-05-06，且仅适用于复杂集合，不适用于字符串集合或复杂字段。

⁴ 对于大多数层，最大索引大小是搜索服务上可用的总存储。对于具有多个分区的 S2、S3 和 S3 HD 服务，因此存储更多，表中提供了单个索引的最大大小。适用于 2024 年 4 月 3 日之后创建的搜索服务。

如果你的服务恰好是在更强大的群集上预配的，你可能会发现最大限制有所不同。这里的限制代表了共同点。根据上述规范构建的索引可以跨任何区域的等效服务层移植。

文档限制

每个索引最多支持以下文档数：

基本层、S1、S2 和 S3 为 240 亿
在 S3 HD 层级上，为 20 亿个
在 L1 层级上，为 2880 亿个
在 L2 层级上，为 5760 亿个

每个文档的大小最多可为 16 MB。文档大小限制实际上适用于索引 API 请求有效负载的大小，即 16 兆字节。该有效负载可以是单个文档或一批文档。对于具有单个文档的批次，最大文档大小是 16 MB JSON。

文档大小限制适用于将文档上传到搜索服务的 推送模式 索引。如果使用索引器进行拉取模式索引，则源文件可以是任意文件大小，但需符合索引器限制。对于 Blob 索引器，文件大小的限制在更高层中更大。例如，S1 限制为 128 MB，S2 限制为 256 MB，依此类推。

估算文档大小时，请记得仅为能够优化搜索场景的字段建立索引。排除在要运行的查询中没有用途的源字段。

矢量索引大小限制

使用矢量字段为文档编制索引时，Azure AI 搜索会使用提供的算法参数构建内部矢量索引。这些矢量索引的大小取决于为服务层（或SKU）的矢量搜索保留的内存。有关管理矢量存储以及使其实现最大化的指导，请参阅矢量索引大小和保持在限制范围内。

矢量限制因以下情况而异：

从 2024 年 4 月开始，新的搜索服务在提供额外容量的区域（即大部分）中具有更高的矢量上限。

此表显示了矢量配额随时间推移以 GB 为单位的增长情况。配额是每个分区，因此，如果将新的标准（S1）服务缩放为 6 个分区，则向量配额总数为 35 乘以 6。

服务创建日期	基本	S1	S2	S3/HD	L1	L2
2023 年 7 月 1 日之前 1	0.5	1	6	12	12	36
2023 年 7 月 1 日至 2024 年 4 月 3 日 2	1	3	12	36	12	36
2024 年 4 月 3 日至 2024 年 5 月 17 日 3	5	35	150	300	12	36
2024 年 5 月 17 日之后 4	5	35	150	300	150	300

¹ 早期预览期的初始矢量限制。

² 后期预览期的矢量限制。以下三个区域没有更高的限制：德国中西部、印度西部、卡塔尔中部。

³ 对于受支持的层级和区域，分区越大，矢量配额越高。

⁴ 根据分区大小更新，提高多个层级和区域的矢量配额。

该服务强制实施向量索引大小配额：

专用： 搜索服务中的每个分区
无服务器： 按索引计

此配额是确保服务保持正常运行的硬性限制。超出限制后，进一步的索引尝试会导致失败。释放可用配额后，可以通过以下方法恢复索引：

删除矢量文档
减小矢量大小或维度
（仅限专用）横向扩展分区

重要

矢量限制越高，分区大小越大。使用较旧基础设施的区域受 7月至4月的限制。查看区域列表，了解分区存储限制的状态。

索引器限制

“最长运行时间”存在的目的是在总体上为服务提供平衡和稳定性，但较大的数据集所需的索引编制时间可能会超过最大值允许的时间。如果在允许的最长时间内无法完成索引作业，请尝试按计划运行。调度程序跟踪索引的状态。如果计划的索引作业因某种原因而中断，则索引器可以在下一次计划运行时从它上次停止的位置重新开始。

注意

在无服务器定价模型中，索引器行为不同于专用服务。容量不是由副本或分区定义的。相反，索引限制由每项服务的对象数量限制、每个索引的存储上限以及服务级别的限流机制决定。因此，某些限制（如最大执行时间）不是固定值。

资源	免费 ¹	基本 ²	S1	S2	S3	S3 HD ³	L1	L2	无服务器开发人员
最大索引器数	3	5 或 15	50	200	200	非适用	10	10	30
最大数据源数	3	5 或 15	50	200	200	非适用	10	10	每项服务 30
最大技能组数⁴	3	5 或 15	50	200	200	非适用	10	10	30
每次调用的最大索引编制负载	10,000 个文档	仅受最大文档数限制	仅受最大文档数限制	仅受最大文档数限制	仅受最大文档数限制	非适用	无限制	无限制	仅受最大文档数限制
最小计划	5 分钟	5 分钟	5 分钟	5 分钟	5 分钟	5 分钟	5 分钟	5 分钟	5 分钟
最长运行时间 ⁵	1-3 或 3-10 分钟	2 小时或 24 小时	2 小时或 24 小时	2 小时或 24 小时	2 小时或 24 小时	非适用	2 小时或 24 小时	2 小时或 24 小时	2 小时
Blob 索引器 ⁷：最大大小，MB	16	16	128	256	256	非适用	256	256	256
Blob 索引器：从 Blob ⁶⁸ 中提取的内容的最大字符数	256,000	512,000	4 米尔	8 米尔	16 米尔	非适用	4 米尔	4 米尔	16 米尔

¹ 对于免费服务，对于 blob 源，索引器最长执行时间为 3 分钟；对于所有其他数据源，索引器最长执行时间为为 1 分钟。索引器调用每 180 秒一次。对于调用 Azure AI 服务的 AI 索引过程，免费服务最多为每天每个索引器提供 20 个免费事务，其中事务定义为成功完成扩充管道处理的文档。（提示：可以重置索引器以重置其计数。

² 在 2017 年 12 月之前创建的基本服务在索引器、数据源和技能组方面的限制较低（为 5 个而不是 15 个）。

³ S3 HD 索引器支持处于预览状态，需要 2025-11-01-preview REST API 版本或更高版本，并且受服务级每日配额（在所有索引器之间共享的 6 小时累积索引器运行时）的约束。 S3 HD 索引器仅在多租户执行环境中运行，不支持共享专用链接资源。在预览期间，S3 HD 索引器支持最适用于小规模工作负载（索引大小约为 1 GB），且不使用技能集或仅使用极少量技能集。

⁴ 每个技能组最多拥有 30 项技能。

⁵ 关于索引器的 2 或 24 小时最长持续时间：2 小时的最长持续时间是最常见的，这是你应计划的内容。它是指在公共环境中运行的索引器，该索引器卸载计算密集型处理，并为查询留出更多资源。如果将索引器配置为仅使用分配给搜索服务的基础结构在专用环境中运行，则 24 小时限制适用。某些较旧的索引器无法在公共环境中运行，并且这些索引器始终具有 24 小时的处理范围。如果有连续 24 小时运行的未计划索引器，则可以假定这些索引器无法迁移到较新的基础结构。一般情况下，对于在两小时内无法完成的索引作业，请将索引器置于 5 分钟的计划中，以便索引器可以快速继续从中断处继续。在免费层中，3-10 分钟的最大运行时间针对具有技能组的索引器。

⁶ 最大字符数基于 Unicode 代码单元，特别是 UTF-16。

⁷ 对 CSV 文件使用 delimitedText 分析模式时，每个文件行的缓冲区大小限制为 10MB。

⁸ 对 CSV 文件使用 delimitedText 分析模式时，“最大提取的内容大小”限制不适用。

共享专用链接资源限制

索引器可访问专用终结点上通过共享专用链接资源 API 管理的其他 Azure 资源。本部分介绍与此功能相关的限制。

注意

无服务器定价模型开发人员层不支持指向数据源的共享专用链接或网络安全外围（NSP）。支持用于与无服务器开发人员层服务建立专用连接的专用终结点和 IP 防火墙规则。

资源	免费	基本	S1	S2	S3	S3 HD	L1	L2	无服务器开发人员
专用端点索引器支持	否	是	是	是	是	否	是	是	否
使用技能组的索引器的专用终结点支持 ¹	否	否	是	是	是	否	是	是	否
使用嵌入技能的技能集的专用终结点支持 ²	否	是	是	是	是	否	是	是	否
最大专用终结点数	非适用	10 或 30	100	400	400	非适用	20	20	非适用
最大非重复资源类型 ³	非适用	4	7	15	15	非适用	4	4	非适用

¹ AI 扩充和图像分析属于计算密集型功能，会消耗过多的可用处理能力。因此，在较低层上禁用了专用连接以确保搜索服务本身的性能和稳定性。在基本服务上，不支持与 Azure AI 服务资源的专用连接，以保持服务稳定性。对于 S1 层级，请确保在 2024 年 4 月 3 日之后创建了限制更高的服务。具有超过 2 个 Azure Vision 多模式嵌入技能的索引器被限制无法在专用环境中运行，且无法使用专用连接。

² 2024 年 4 月 3 日之后创建的基本和 S1 高容量搜索服务支持专用连接到嵌入模型，其中对存储和计算处理的限制更高。

³ 不同资源类型的数量计算为在给定搜索服务的所有共享专用链接资源中使用的唯一 groupId 值的数量，而与资源的状态无关。

同义词限制

同义词映射的最大数量因层级而异。每个规则最多可以有 20 个扩展，扩展即为同义词。例如，给定“cat”这个词，与“kitty”、“feline”和“felis”（猫属）的关联算作三次扩展。

资源	免费	基本	S1	S2	S3	S3 HD	L1	L2	无服务器开发人员
最大同义词映射数	3	3	5	10	20	20	10	10	每个服务 20 个
每个映射的最大规则数	五千	20000	20000	20000	20000	20000	20000	20000	20000

索引别名限制

索引别名的最大数目因层和服务创建日期而异。在所有层上，如果服务是在 2022 年 10 月之后创建的，则允许的最大别名数是允许的最大索引数的两倍。如果服务是在 2022 年 10 月之前创建的，则限制是允许的索引数。

注意

无服务器模型开发人员层不支持索引别名。

服务创建日期	免费	基本	S1	S2	S3	S3 HD	L1	L2	无服务器开发人员
2022 年 10 月之前	3	5 或 15¹	50	200	200	每个分区 1000，每个服务 3000	10	10	非适用
2022 年 10 月之后	6	30	100	400	400	每个分区 2000，每个服务 6000	20	20	非适用

² 在 2017 年 12 月之前创建的基本服务对索引数的限制较低（为 5 个而不是 15 个）。

代理检索限制

知识库指定一个或多个知识源和检索推理工作，用于控制大型语言模型（LLM）处理级别，以便进行代理检索。限制因定价层、API 版本和推理工作级别而异。

资源	免费	基本	S1	S2	S3	L1	L2	无服务器开发人员
每个服务的最大知识源数	3	5 或 15¹	50	200	200	10	10	30
每个服务的最大知识库数	3	5 或 15¹	50	200	200	10	10	30
每个知识库的最大知识来源（`minimal`） ²	3	5 或 10 ¹	10	10	10	10	10	10
每个知识库的最大知识来源（`low`）	3	3	3	3	3	3	3	3
每个知识库的最大知识来源（`medium`）	3	5	5	5	5	5	5	5

¹ 基本服务在 2024 年 4 月 3 日之前创建的知识来源和知识库有较低限制（5）。

每个知识库的知识源

基于知识库的限制取决于用于创建或更新知识库的 API 版本。在 2026-05-01-preview 中，所有检索推理工作都支持相同的知识源限制。早期预览版 API 版本对 low 和 medium 推理强度的限制较低。

API 版本	检索推理工作	免费	基本	S1	S2	S3	L1	L2
`2026-05-01-preview`	`minimal`、`low`、`medium`	3	5 或 10 ¹	10	10	10	10	10
`2026-05-01-preview`、`2025-08-01-preview`	`minimal` ²	3	5 或 10 ¹	10	10	10	10	10
`2026-05-01-preview`、`2025-08-01-preview`	`low`	3	3	3	3	3	3	3
`2026-05-01-preview`、`2025-08-01-preview`	`medium`	3	5	5	5	5	5	5

² 在早期预览版 API 版本中，minimal推理强度支持的知识源比low或medium更多，因为它绕过了基于 LLM 的查询规划。

数据限制（AI 扩充）

数据限制适用于 AI 扩充管道，该管道调用Azure语言进行实体识别、实体链接、关键短语提取、情绪分析、语言检测和个人信息检测。

单条记录的最大长度为 50,000 个字符，按 String.Length 计算。

这些限制适用于专用和无服务器定价模型。

限制

限流限制通过控制 API 请求速率来帮助确保服务的稳定性。

在专用定价模型中，限制基于搜索单位（副本×分区）。

在无服务器定价模型中，限流并非基于搜索单位。相反，服务级别操作限制和总体消耗行为控制吞吐量。使用情况和服务限制管理容量，而不是副本和分区的配置。

操作	专用（每个搜索单位）	无服务器（每个服务或每个索引）
列出索引（GET /indexes）	3 个请求/秒/SU	3 个请求/秒
获取索引（GET /indexes/{index}）	10 个请求/秒/SU	10 个请求/秒
创建索引（POST /indexes）	12 个请求/分钟/SU	12 个请求/分钟
创建或更新索引（PUT /indexes/{index}）	6 个请求/秒/SU	6 个请求/秒
删除索引（DELETE /indexes/{index}）	12 个请求/分钟/SU	12 个请求/分钟
服务统计信息（GET /servicestats）	4 个请求/秒/SU	4 个请求/秒
搜索查询（POST /indexes/{index}/docs/search）	因 SU 数量和查询复杂程度而异	50 个查询/秒（每个索引的总读取限流）
索引文档（POST /indexes/{index}/docs/index）	因 SU 数量和索引工作负载而异	每个索引 5 个请求/秒
建议（POST /indexes/{index}/docs/suggest）	因 SU 数量而异	未显式定义
自动完成（POST /indexes/{index}/docs/autocomplete）	因 SU 数量而异	未显式定义

语义排序器限制

语义排序器使用队列系统来管理并发请求。此系统允许搜索服务获取每秒可能的最大查询数。达到并发请求的限制后，系统会在队列中放置其他请求。如果队列已满，系统将拒绝进一步的请求，并且必须重试这些请求。

每秒语义排名器查询总数因以下因素而异：

搜索服务的等级。队列容量和并发请求限制因层而异。
搜索服务中的搜索单位数。增加并发语义排序器查询最大数量的最简单方法是向搜索服务添加其他搜索单位。
区域中可用的语义排序器容量总数。
使用语义排序器提供查询所需的时间。此时间因搜索服务繁忙程度而异。

下表按层描述了在区域可用容量限制下的语义排名器节流限制。可以联系 Azure 支持部门，请求增加限制。

资源	基本	S1	S2	S3	S3 HD	L1	L2	无服务器开发人员
最大并发请求数（每个搜索单位）	2	3	4	4	4	4	4	4（每个服务）
最大请求队列大小（每个搜索单元）	4	6	8	8	8	8	8	8（每个服务）

API 请求限制

查询存在限制，因为未绑定的查询可能会破坏搜索服务的稳定性。通常，这样的查询是以编程方式创建的。如果应用程序以编程方式生成搜索查询，请对其进行设计，使其不会生成无限大小的查询。

存在对有效负载的限制的原因类似，确保搜索服务的稳定性。此限制适用于整个请求，包括其所有组件。例如，如果请求批处理多个文档或命令，则整个请求必须符合支持的限制。

如果必须超出受支持的限制，请测试工作负荷，以便了解预期内容。

除非另有说明，否则以下 API 请求适用于所有可编程接口，包括 Azure SDK。

常规：

支持的最大有效负载限制为 16 MB，用于通过 REST API 和 SDK 编制索引和查询请求。
最大 8 KB 的 URL 长度（仅适用于 REST API）。

索引 API：

每个索引上传、合并或删除的批次最多支持 1,000 个文档。
每个请求支持 1 到 32,000 个索引操作。

查询 API：

矢量查询中最多 10 个字段
$orderby 子句中最多 32 字段。
搜索子句中最多 100,000 个字符。
搜索中的子句数不超过 3,000 个。
对通配符和正则表达式查询的最大限制，由 Lucene 强制实施。它会将模式、变体或匹配数上限设为 1,000 个实例。此限制已实施，以避免引擎过载。

搜索词：

支持的最大搜索词大小为 UTF-8 编码文本的 32,766 字节（32 KB 减 2 个字节）。适用于关键字搜索和矢量搜索的文本属性。
支持的前缀搜索和正则表达式搜索的最大搜索词大小为 1,000 个字符。

API 响应限制

搜索结果的每页最多返回 1,000 个文档。
每个建议 API 请求最多返回 100 条建议。

默认情况下，搜索引擎返回 50 个结果，但最多可以覆盖此参数的最大限制。

API 密钥限制

使用 API 密钥进行服务身份验证。存在两种类型的 API 密钥。在请求标头中指定的管理密钥提供对服务的完整读写访问权限。在 URL 上指定的查询密钥是只读的，通常分发给客户端应用程序。

每个服务最多支持两个管理密钥。
每个服务最多支持 50 个查询密钥。

Last updated on 2026-07-27