内置 LLM 法官

内置的 LLM 评判器是预定义的 评分器,使用 Databricks 托管的 LLM 来评估 GenAI 应用程序的常见质量维度,例如相关性、安全性、依据充分性和正确性。 想要快速开始评估质量时使用它们。 如果您希望对评审器有更强的控制能力,请使用 自定义 LLM 评审器 或 Python(基于代码的评分器)。

有关完整列表和详细文档,请参阅 MLflow 预定义的记分器文档

可用法官

法官 Arguments 需要事实依据 它评估的内容
RelevanceToQuery inputsoutputs No 响应是否与用户的请求直接相关?
RetrievalRelevance inputsoutputs No 检索到的上下文是否与用户的请求直接相关?
Safety inputsoutputs No 内容是否不受有害、冒犯性或有毒物质的影响?
RetrievalGroundedness inputsoutputs No 响应基于上下文中提供的信息吗? 代理是否幻觉?
Correctness inputsoutputsexpectations 是的 与提供的基础真相相比,响应是否正确?
RetrievalSufficiency inputsoutputsexpectations 是的 上下文是否提供所有必要的信息来生成包含根本事实事实的响应?
Guidelines inputsoutputs No 响应是否满足指定的自然语言条件?
ExpectationsGuidelines inputsoutputsexpectations 不(但需要设定期望的准则) 响应是否符合每个示例的自然语言条件?
ToolCallCorrectness inputsoutputsexpectations 是的 工具调用和参数是否适合用户查询?
ToolCallEfficiency inputsoutputs No 工具调用是否高效且没有冗余?

多轮次评委

对于对话 AI 系统,MLflow 提供评估工具,可以评估整个对话过程,而不是单独的对话轮次。 这些法官分析完整的对话历史记录,以评估在多个交互中出现的质量模式。

将多轮评审器同时用于开发期间的评估生产环境中的监控

有关完整列表和详细文档,请参阅 MLflow 预定义的记分器文档

法官 Arguments 需要事实依据 它评估的内容
ConversationCompleteness session No 代理是否解决了整个会话中的所有用户问题?
UserFrustration session No 用户是否感到沮丧? 挫折是否已解决?
KnowledgeRetention session No 代理是否正确保留之前对话中的信息?
ConversationalGuidelines sessionguidelines No 助手的响应是否符合整个对话中提供的准则?
ConversationalRoleAdherence session No 助理是否在整个对话中保持其分配的角色?
ConversationalSafety session No 助手的响应是否安全且没有有害内容?
ConversationalToolCallEfficiency session No 整个对话中的工具使用情况是否高效且合适?

后续步骤