概述
评委是 MLflow 的 SDK/API 构建基块,用于基于 LLM 的质量评估。 每个法官都使用 专门优化的 Databricks 托管 LLM 模型 来执行 GenAI 质量评估。
将法官视为专门从事质量评估的 AI 助手 - 他们读取应用的输出,并根据你定义的标准进行评估。 例如,他们可以理解 give me healthy food options
与 food to keep me fit
是相同的查询或非常相似的查询。
何时使用法官
如果需要评估纯语言输入或输出,请使用法官:
- 语义正确性:“这是否正确回答了问题?
- 风格和语气:“这是否适合我们的品牌声音?
- 安全性和符合性:“这是否遵循我们的内容准则?
- 相对质量:“哪个响应更有用?
请改用 基于代码的自定义评分器 :
- 完全匹配:检查特定关键字
- 格式验证:JSON 结构、长度限制
- 性能指标:延迟、令牌使用情况
深入了解法官
有关特定法官的详细信息:
预定义的法官
MLflow 为常见用例提供经研究验证的法官:
from mlflow.genai.judges import (
is_safe, # Content safety
is_relevant, # Query relevance
is_grounded, # RAG grounding
is_correct, # Factual accuracy
is_context_sufficient # Retrieval quality
)
有关详细文档,请参阅 预定义的评审参考指南 。
自定义法官
使用两种方法构建领域特定的评估模型:
基于指南(建议的起点) - 自然语言通过/失败标准,易于向利益干系人解释。 最适合用于合规检查、样式指南或信息的纳入/排除。
提示为基础 - 用于复杂评估的提示的全面自定义。 需要多个输出值(例如“优秀”、“合格”、“不合格”)或无法用通过/未通过标准表示的条件时使用。
法官准确性
Databricks 通过以下方式持续提高评估质量:
- 针对人类专家判断的研究验证
- 指标跟踪:科恩的卡帕,准确性,F1 分数
- 针对学术和真实数据集的多样化测试
有关详细信息,请参阅 有关 LLM 法官改进的 Databricks 博客 。
有关为 LLM 法官提供支持的模型的信息
LLM 评审可能会使用第三方服务来评估您的 GenAI 应用程序,包括由 Microsoft 运营的 Azure OpenAI。
对于 Azure OpenAI,Databricks 已选择退出“滥用监视”,因此不会通过 Azure OpenAI 存储任何提示或响应。
对于欧盟 (EU) 工作区,LLM 判定使用托管在 EU 的模型。 所有其他区域使用托管在美国的模型。
LLM 评审旨在帮助客户评估他们的 GenAI 代理/应用程序,并且不应使用 LLM 评审结果来训练、改进或微调 LLM。
后续步骤
操作指南
- 使用将内置评估器封装起来的预定义 LLM 评分器
- 使用自然语言条件创建基于准则的法官
- 为复杂的评估构建基于提示的自定义法官