内置 LLM 法官

内置的 LLM 评判器是预定义的评分器，使用 Databricks 托管的 LLM 来评估 GenAI 应用程序的常见质量维度，例如相关性、安全性、依据充分性和正确性。想要快速开始评估质量时使用它们。如果您希望对评审器有更强的控制能力，请使用自定义 LLM 评审器或 Python（基于代码的评分器）。

有关完整列表和详细文档，请参阅 MLflow 预定义的记分器文档。

可用法官

法官	Arguments	需要事实依据	它评估的内容
`RelevanceToQuery`	`inputs`、`outputs`	No	响应是否与用户的请求直接相关？
`RetrievalRelevance`	`inputs`、`outputs`	No	检索到的上下文是否与用户的请求直接相关？
`Safety`	`inputs`、`outputs`	No	内容是否不受有害、冒犯性或有毒物质的影响？
`RetrievalGroundedness`	`inputs`、`outputs`	No	响应基于上下文中提供的信息吗？代理是否幻觉？
`Correctness`	`inputs`、`outputs`、`expectations`	是的	与提供的基础真相相比，响应是否正确？
`RetrievalSufficiency`	`inputs`、`outputs`、`expectations`	是的	上下文是否提供所有必要的信息来生成包含根本事实事实的响应？
`Guidelines`	`inputs`、`outputs`	No	响应是否满足指定的自然语言条件？
`ExpectationsGuidelines`	`inputs`、`outputs`、`expectations`	不（但需要设定期望的准则）	响应是否符合每个示例的自然语言条件？
`ToolCallCorrectness`	`inputs`、`outputs`、`expectations`	是的	工具调用和参数是否适合用户查询？
`ToolCallEfficiency`	`inputs`、`outputs`	No	工具调用是否高效且没有冗余？

多轮次评委

对于对话 AI 系统，MLflow 提供评估工具，可以评估整个对话过程，而不是单独的对话轮次。这些法官分析完整的对话历史记录，以评估在多个交互中出现的质量模式。

将多轮评审器同时用于开发期间的评估和生产环境中的监控。

有关完整列表和详细文档，请参阅 MLflow 预定义的记分器文档。

法官	Arguments	需要事实依据	它评估的内容
`ConversationCompleteness`	`session`	No	代理是否解决了整个会话中的所有用户问题？
`UserFrustration`	`session`	No	用户是否感到沮丧？挫折是否已解决？
`KnowledgeRetention`	`session`	No	代理是否正确保留之前对话中的信息？
`ConversationalGuidelines`	`session`、`guidelines`	No	助手的响应是否符合整个对话中提供的准则？
`ConversationalRoleAdherence`	`session`	No	助理是否在整个对话中保持其分配的角色？
`ConversationalSafety`	`session`	No	助手的响应是否安全且没有有害内容？
`ConversationalToolCallEfficiency`	`session`	No	整个对话中的工具使用情况是否高效且合适？

后续步骤

选择驱动裁判的 LLM
当内置评判器不适合您的使用场景时，构建自定义 LLM 评判器
使评判器与人工反馈保持一致，以提高您所在领域中的准确性

Last updated on 2026-06-05

内置 LLM 法官

可用法官

多轮次评委

后续步骤

其他资源