设置检索推理强度(预览版)

注释

某些代理检索功能已在 2026-04-01 REST API 版本中正式发布。 但是,此功能仍为预览版,需要预览版 REST API 版本。 预览版功能在没有服务级别协议的情况下提供,不建议用于生产工作负荷。

重要

这些特性和功能是 2026-05-01 预览版 REST API 的一部分。 2026-05-01-preview 作为Azure订阅的一部分获得许可,并受Microsoft产品条款Microsoft产品和服务数据保护附录(“DPA”)和Azure预览版补充使用条款的约束。

2026-05-01-preview 支持连接到其他 Microsoft 服务和第三方服务。 使用这些服务受其各自的条款的约束,可能会导致数据处理或存储超出Azure符合性边界,以及流入Azure符合性边界的数据。

您有责任管理您的数据是否会流出您组织的合规和地理边界之外及其任何相关影响,并确保已配置适当的权限、边界和审批。

你负责仔细查看和测试在特定用例上下文中生成的应用程序,并做出所有适当的决策和自定义。 这包括实施自己的负责任的 AI 缓解措施,例如元系统、内容筛选器或其他安全系统,并确保应用程序满足适当的质量、可靠性、安全性和可信度标准。

在代理检索中,可以指定用于查询规划和答案表述的大型语言模型(LLM)处理级别。 使用检索推理强度(预览版)来设置会影响成本和延迟的 LLM 处理级别。 额外的 LLM 处理可提高相关性,但还需要更长的时间并使用可计费的 LLM 资源。

可以在知识库或检索请求中设置此属性。 知识库设置为所有查询建立默认值,而检索请求设置会基于查询替代默认值。

先决条件

  • 具有知识库的 Azure 人工智能搜索服务。

  • 更新知识库的权限。 使用分配给用户帐户的 Search Service 参与者角色配置 无密钥身份验证或使用 API 密钥

  • 如果知识库指定了 LLM,则搜索服务必须具有一个托管标识,并对 Azure AI 服务资源具有认知服务用户权限。

  • 2026-05-01-preview REST API 或等效的 Azure SDK 预览包:.NET | Java | JavaScript | Python

选择推理强度

根据所需的延迟、成本和检索深度之间的权衡选择推理工作。

推理努力级别

级别 Description 建议 限额
minimal 禁用基于 LLM 的查询规划,以实现自主检索的最低成本和延迟。 它在知识库中列出的各知识源上进行直接文本和向量搜索,并返回最匹配的段落。 由于始终搜索knowledge base中的所有知识源,并且不会执行查询扩展,因此行为是可预测的且易于控制。 这也意味着在检索请求中,alwaysQueryKnowledgeSource 属性将被忽略。 用于 minimal搜索 API 进行迁移,或者想要自行管理查询规划时。
  • outputMode 必须设置为 extractiveData.
  • 不支持答案合成Web 知识
  • 每个知识库最多可拥有10个知识源。
low 代理检索的默认模式,执行基于 LLM 的查询规划和知识源选择的一次性传递。 自主检索引擎生成子查询并将其分发到所选知识源,然后合并结果。 可以启用答案合成功能,以生成带有内联引文的自然语言响应。 想要在最小延迟和更深入的处理之间实现平衡时使用 low
  • 5,000 个应答令牌。
  • 在 2026-05-01-preview 版本中,在大多数付费层级下,每个知识库最多支持 10 个知识源
  • 在早期的预览版 API 版本中,每个知识库中的三个知识源最多可发起三个子查询。
  • 语义排名最多 50 个文档,如果语义排名器使用 L3 分类,则最多 10 个文档。
medium 将更深入的搜索和增强的检索堆栈添加到代理检索,以最大程度地提高完整性。 执行第一次搜索后, 高精度语义分类器 将评估检索的文档,以确定是否需要进一步处理和 L3 排名。 如果第一次传递的初始结果与查询无关,则使用修订后的查询计划执行后续迭代。 此修订后的查询计划将以前的结果考虑在内,并通过微调查询、扩展术语或者添加其他知识来源(例如网络)来迭代优化。 与低工作量和最少工作量相比,它还增加了资源限制。 这种推理级别针对相关性进行优化,而非刻意追求全面回忆。 使用 medium 可最大限度地提升 LLM 辅助知识检索的效用。
  • 10,000 个应答令牌。
  • 在 2026-05-01-preview 版本中,在大多数付费层级下,每个知识库最多支持 10 个知识源
  • 在较早的预览版 API 版本中,每个知识库最多可从五个知识源发起五个子查询。
  • 语义排名最多 50 个文档,如果语义排名器使用 L3 分类,则最多 20 个文档。
  • 选择区域中可用。

在知识库中设置推理工作量

本部分演示如何在现有知识库中设置检索推理工作。 尽管可以将此配置用于新的知识库,但知识库创建超出了本文的范围。

若要建立默认行为,请设置 retrievalReasoningEffort 在知识库定义中。

### Set retrieval reasoning effort in a knowledge base
PUT {{search-url}}/knowledgebases/{{knowledge-base-name}}?api-version=2026-05-01-preview
Content-Type: application/json
api-key: {{api-key}}

{
  "name": "{{knowledge-base-name}}",
  "knowledgeSources": [ ... // OMITTED FOR BREVITY ],
  "retrievalReasoningEffort": {
    "kind": "low"
  }
}

参考:知识库 - 创建或更新

在检索请求中设置推理强度

若要针对每个查询单独覆盖默认设置,请在 retrieve 请求正文中设置 retrievalReasoningEffort

### Override retrieval reasoning effort in a retrieve request
POST {{search-url}}/knowledgebases/{{knowledge-base-name}}/retrieve?api-version=2026-05-01-preview
Content-Type: application/json
api-key: {{api-key}}

{
  "messages": [ ... // OMITTED FOR BREVITY ],
  "retrievalReasoningEffort": {
    "kind": "low"
  },
  "outputMode": "answerSynthesis",
  "maxRuntimeInSeconds": 30,
  "maxOutputSize": 6000
}

参考:知识检索 - 检索