基于 LLM 的评分器

概述

评委是 MLflow 的 SDK/API 构建基块,用于基于 LLM 的质量评估。 每个法官都使用 专门优化的 Databricks 托管 LLM 模型 来执行 GenAI 质量评估。

将法官视为专门从事质量评估的 AI 助手 - 他们读取应用的输出,并根据你定义的标准进行评估。 例如,他们可以理解 give me healthy food optionsfood to keep me fit 是相同的查询或非常相似的查询。

重要

虽然判定器可以作为独立 API 使用,但它们必须包装在 记分器 中,以供 评估系统生产监视服务使用。

何时使用法官

如果需要评估纯语言输入或输出,请使用法官:

  • 语义正确性:“这是否正确回答了问题?
  • 风格和语气:“这是否适合我们的品牌声音?
  • 安全性和符合性:“这是否遵循我们的内容准则?
  • 相对质量:“哪个响应更有用?

请改用 基于代码的自定义评分器

  • 完全匹配:检查特定关键字
  • 格式验证:JSON 结构、长度限制
  • 性能指标:延迟、令牌使用情况

深入了解法官

有关特定法官的详细信息:

预定义的法官

MLflow 为常见用例提供经研究验证的法官:

from mlflow.genai.judges import (
    is_safe,              # Content safety
    is_relevant,          # Query relevance
    is_grounded,          # RAG grounding
    is_correct,           # Factual accuracy
    is_context_sufficient # Retrieval quality
)

有关详细文档,请参阅 预定义的评审参考指南

自定义法官

使用两种方法构建领域特定的评估模型:

  1. 基于指南(建议的起点) - 自然语言通过/失败标准,易于向利益干系人解释。 最适合用于合规检查、样式指南或信息的纳入/排除。

  2. 提示为基础 - 用于复杂评估的提示的全面自定义。 需要多个输出值(例如“优秀”、“合格”、“不合格”)或无法用通过/未通过标准表示的条件时使用。

法官准确性

Databricks 通过以下方式持续提高评估质量:

  • 针对人类专家判断的研究验证
  • 指标跟踪:科恩的卡帕,准确性,F1 分数
  • 针对学术和真实数据集的多样化测试

有关详细信息,请参阅 有关 LLM 法官改进的 Databricks 博客

有关为 LLM 法官提供支持的模型的信息

  • LLM 评审可能会使用第三方服务来评估您的 GenAI 应用程序,包括由 Microsoft 运营的 Azure OpenAI。

  • 对于 Azure OpenAI,Databricks 已选择退出“滥用监视”,因此不会通过 Azure OpenAI 存储任何提示或响应。

  • 对于欧盟 (EU) 工作区,LLM 判定使用托管在 EU 的模型。 所有其他区域使用托管在美国的模型。

  • LLM 评审旨在帮助客户评估他们的 GenAI 代理/应用程序,并且不应使用 LLM 评审结果来训练、改进或微调 LLM。

后续步骤

操作指南

概念