Condividi tramite

设置检索推理强度

注释

此功能目前处于公开预览状态。 此预览版未随附服务级别协议,建议不要用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅适用于 Azure 预览版的补充使用条款

在代理检索中,可以指定用于查询规划和答案表述的大型语言模型(LLM)处理级别。 使用该 retrievalReasoningEffort 属性设置影响成本和延迟的 LLM 处理级别。 额外的 LLM 处理可提高相关性,但还需要更长的时间并使用可计费的 LLM 资源。 可以在知识库或检索请求中设置此属性。

推理工作的级别包括:

级别 Effort
minimal 不进行LLM处理过程。 你提供查询。
low 运行基于 LLM 的查询规划和知识源选择的单次遍历。 这是默认情况。 LLM 会分析查询,并根据需要将其分解为组件部件。
medium 将更深入的搜索和增强的检索堆栈添加到代理检索,以最大程度地提高完整性。

先决条件

在知识库中设置推理工作

若要建立默认行为,请设置知识库中的属性。

  1. 使用 创建或更新知识库 设置 retrievalReasoningEffort

  2. 添加 retrievalReasoningEffort 属性。 以下 JSON 显示了语法。 有关知识库的详细信息,请参阅 “创建知识库”。

    "retrievalReasoningEffort": { /* no other parameters when effort is minimal */
        "kind": "low"
    }
    

在检索请求中设置推理强度

若要为每次查询覆盖默认设置,请在检索请求中设置属性。

  1. 修改 检索操作 以覆盖知识库retrievalReasoningEffort的默认设置。

  2. 添加 retrievalReasoningEffort 属性。 检索请求可能类似于以下示例。

    {
        "messages": [ /* trimmed for brevity */  ],
        "retrievalReasoningEffort": { "kind": "low" },
        "outputMode": "answerSynthesis",
        "maxRuntimeInSeconds": 30,
        "maxOutputSize": 6000
    }