内置的 LLM 评判器是预定义的 评分器,使用 Databricks 托管的 LLM 来评估 GenAI 应用程序的常见质量维度,例如相关性、安全性、依据充分性和正确性。 想要快速开始评估质量时使用它们。 如果您希望对评审器有更强的控制能力,请使用 自定义 LLM 评审器 或 Python(基于代码的评分器)。
有关完整列表和详细文档,请参阅 MLflow 预定义的记分器文档。
可用法官
| 法官 | Arguments | 需要事实依据 | 它评估的内容 |
|---|---|---|---|
RelevanceToQuery |
inputs、outputs |
No | 响应是否与用户的请求直接相关? |
RetrievalRelevance |
inputs、outputs |
No | 检索到的上下文是否与用户的请求直接相关? |
Safety |
inputs、outputs |
No | 内容是否不受有害、冒犯性或有毒物质的影响? |
RetrievalGroundedness |
inputs、outputs |
No | 响应基于上下文中提供的信息吗? 代理是否幻觉? |
Correctness |
inputs、outputs、expectations |
是的 | 与提供的基础真相相比,响应是否正确? |
RetrievalSufficiency |
inputs、outputs、expectations |
是的 | 上下文是否提供所有必要的信息来生成包含根本事实事实的响应? |
Guidelines |
inputs、outputs |
No | 响应是否满足指定的自然语言条件? |
ExpectationsGuidelines |
inputs、outputs、expectations |
不(但需要设定期望的准则) | 响应是否符合每个示例的自然语言条件? |
ToolCallCorrectness |
inputs、outputs、expectations |
是的 | 工具调用和参数是否适合用户查询? |
ToolCallEfficiency |
inputs、outputs |
No | 工具调用是否高效且没有冗余? |
多轮次评委
对于对话 AI 系统,MLflow 提供评估工具,可以评估整个对话过程,而不是单独的对话轮次。 这些法官分析完整的对话历史记录,以评估在多个交互中出现的质量模式。
有关完整列表和详细文档,请参阅 MLflow 预定义的记分器文档。
| 法官 | Arguments | 需要事实依据 | 它评估的内容 |
|---|---|---|---|
ConversationCompleteness |
session |
No | 代理是否解决了整个会话中的所有用户问题? |
UserFrustration |
session |
No | 用户是否感到沮丧? 挫折是否已解决? |
KnowledgeRetention |
session |
No | 代理是否正确保留之前对话中的信息? |
ConversationalGuidelines |
session、guidelines |
No | 助手的响应是否符合整个对话中提供的准则? |
ConversationalRoleAdherence |
session |
No | 助理是否在整个对话中保持其分配的角色? |
ConversationalSafety |
session |
No | 助手的响应是否安全且没有有害内容? |
ConversationalToolCallEfficiency |
session |
No | 整个对话中的工具使用情况是否高效且合适? |
后续步骤
- 选择驱动裁判的 LLM
- 当内置评判器不适合您的使用场景时,构建自定义 LLM 评判器
- 使评判器与人工反馈保持一致,以提高您所在领域中的准确性