评审应用是基于 Web 的 UI,旨在从域专家那里收集结构化反馈,而无需他们编写代码。 使用它来收集见解,以改进 GenAI 应用的质量,并将 LLM 法官与业务需求保持一致。
使用“审阅应用”的两种方法
标记现有跟踪
使用此方法可以:
- 了解特定查询的高质量正确响应
- 收集输入,使 LLM 法官符合你的业务需求
- 从生产跟踪创建评估数据集
Vibe 检查预生产应用
若要使用 vibe 检查模式,必须部署应用程序
请专家与已部署的应用聊天,并实时提供有关应用的响应 的反馈 。
使用此方法可以:
- 在部署之前获取有关新应用版本的快速反馈
- 测试应用行为而不影响生产环境
- 使用域专家验证改进
模式比较
方面 | 标记现有跟踪 | Vibe 检查模式 |
---|---|---|
输入源 | 现有跟踪 | 域专家输入查询 |
输出源 | 现有跟踪 | 实时代理终结点响应 |
自定义标记架构 | ✅ 是 - 定义自定义问题和条件 | ❌ 否 - 使用固定反馈问题 |
MLflow 跟踪(标记会话内部) | MLflow 跟踪 |
先决条件
安装 MLflow 和所需包
pip install --upgrade "mlflow[databricks]>=3.1.0" openai "databricks-connect>=16.1"
请按照设置环境快速入门创建 MLflow 试验。
仅适用于 vibe 检查模式: 使用 Agent Framework 的已部署代理终结点
1.标记现有跟踪
标记现有跟踪可以收集已从生产或开发捕获的跟踪的结构化反馈。 这非常适合用于生成评估数据集、了解质量模式和训练自定义 LLM 法官。
此过程涉及创建标记会话、定义要收集哪些反馈、添加要评审的跟踪以及与域专家共享。 有关完整的分步说明,请参阅 “标记现有跟踪”。
有关标记会话、架构和配置选项的详细信息,请参阅 标记会话 和 标记架构。
2. Vibe 检查模式
使用代理框架打包应用,并使用 Agent Framework 作为模型服务终结点进行部署。
将终结点添加到试验的评审应用:
注释
以下示例将 Databricks 托管 LLM 添加到评审应用。 将终结点替换为步骤 1 中的应用终结点。
from mlflow.genai.labeling import get_review_app # Get review app for current MLflow experiment review_app = get_review_app() # Connect your deployed agent endpoint review_app.add_agent( agent_name="claude-sonnet", model_serving_endpoint="databricks-claude-3-7-sonnet", ) print(f"Share this URL: {review_app.url}/chat")
域专家现在可以与应用聊天并提供即时反馈。
权限模型
用于标记现有跟踪
领域专家需要:
- 帐户访问权限:必须在 Databricks 帐户中预配,但不需要访问工作区
- 试验访问权限:对 MLflow 试验的 写入 权限
对于 vibe 检查模式
领域专家需要:
- 帐户访问权限:必须在 Databricks 帐户中预配,但不需要访问工作区
- 终结点访问: CAN_QUERY 模型服务终结点的权限
设置帐户访问权限
对于没有工作区访问权限的用户,帐户管理员可以:
- 使用帐户级 SCIM 预配从标识提供者同步用户
- 在 Databricks 中手动注册用户和组
内容呈现
“审阅应用”会自动呈现 MLflow 跟踪中的不同内容类型:
-
检索的文档:跨度内的
RETRIEVER
文档呈现以供显示 -
OpenAI 格式消息:呈现以下 OpenAI 聊天对话的 MLflow 跟踪的输入和输出:
-
outputs
包含 OpenAI 格式 ChatCompletions 对象的 -
inputs
或outputs
包含具有 OpenAI 格式聊天消息数组的键的听写messages
-
messages
如果数组包含 OpenAI 格式工具调用,则它们也会呈现
-
-
- 字典:作为听写的 MLflow 跟踪的输入和输出呈现为相当打印的 JSON
否则,每个跟踪的 input
根范围和 output
根范围的内容将用作主要内容以供审阅。
访问反馈数据
专家提供反馈后,标签将存储在实验中的 MLflow 跟踪中。 使用“ 跟踪 ”选项卡或“ 标记会话 ”选项卡查看数据。