注释
此功能目前处于公开预览状态。 此预览版未随附服务级别协议,建议不要用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅适用于 Azure 预览版的补充使用条款。
在代理检索中,可以指定用于查询规划和答案表述的大型语言模型(LLM)处理级别。 使用该 retrievalReasoningEffort 属性设置影响成本和延迟的 LLM 处理级别。 额外的 LLM 处理可提高相关性,但还需要更长的时间并使用可计费的 LLM 资源。 可以在知识库或检索请求中设置此属性。
推理工作的级别包括:
| 级别 | Effort |
|---|---|
minimal |
不进行LLM处理过程。 你提供查询。 |
low |
运行基于 LLM 的查询规划和知识源选择的单次遍历。 这是默认情况。 LLM 会分析查询,并根据需要将其分解为组件部件。 |
medium |
将更深入的搜索和增强的检索堆栈添加到代理检索,以最大程度地提高完整性。 |
先决条件
具有 知识库的 Azure AI 搜索服务。
如果知识库指定 LLM,则搜索服务必须具有 托管标识,并对 Microsoft Foundry 资源具有 认知服务用户 权限。
2025-11-01 预览版 REST API 或等效的 Azure SDK 预览包:.NET | Java | JavaScript | Python。
选择推理强度
本部分介绍:
推理努力级别
| 级别 | Description | 建议 | 限额 |
|---|---|---|---|
minimal |
禁用基于 LLM 的查询规划,以实现自主检索的最低成本和延迟。 它跨知识库中列出的知识源发出直接文本和矢量搜索,并返回最佳匹配段落。 由于知识库中的所有知识源始终进行搜索,并且不会执行任何查询扩展,因此行为是可预测的且易于控制。 这也意味着在检索请求中,alwaysQueryKnowledgeSource 属性将被忽略。 |
使用“最小”来从 搜索 API 执行迁移,或在您希望自行管理查询规划时。 |
|
low |
代理检索的默认模式,执行基于 LLM 的查询规划和知识源选择的一次性传递。 自主检索引擎生成子查询并将其分发到所选知识源,然后合并结果。 可以启用答案合成功能,以生成带有内联引文的自然语言响应。 | 如果想要在最小延迟和更深入的处理之间实现平衡,请使用“低”。 |
|
在知识库中设置推理工作
若要建立默认行为,请设置知识库中的属性。
使用 创建或更新知识库 设置
retrievalReasoningEffort。添加
retrievalReasoningEffort属性。 以下 JSON 显示了语法。 有关知识库的详细信息,请参阅 “创建知识库”。"retrievalReasoningEffort": { /* no other parameters when effort is minimal */ "kind": "low" }
在检索请求中设置推理强度
若要为每次查询覆盖默认设置,请在检索请求中设置属性。
修改 检索操作 以覆盖知识库
retrievalReasoningEffort的默认设置。添加
retrievalReasoningEffort属性。 检索请求可能类似于以下示例。{ "messages": [ /* trimmed for brevity */ ], "retrievalReasoningEffort": { "kind": "low" }, "outputMode": "answerSynthesis", "maxRuntimeInSeconds": 30, "maxOutputSize": 6000 }