评审应用

评审应用是基于 Web 的 UI，旨在从域专家那里收集结构化反馈，而无需他们编写代码。使用它来收集见解，以改进 GenAI 应用的质量，并将 LLM 法官与业务需求保持一致。

“评审应用”预览主图。

使用“审阅应用”的两种方法

标记现有跟踪

请专家评审与应用的现有交互，以提供反馈和期望。

使用此方法可以：

了解特定查询的高质量正确响应
收集输入，使 LLM 法官符合你的业务需求
从生产跟踪创建评估数据集

Vibe 检查预生产应用

若要使用 vibe 检查模式，必须部署应用程序

请专家与已部署的应用聊天，并实时提供有关应用的响应的反馈。

使用此方法可以：

在部署之前获取有关新应用版本的快速反馈
测试应用行为而不影响生产环境
使用域专家验证改进

模式比较

方面	标记现有跟踪	Vibe 检查模式
输入源	现有跟踪	域专家输入查询
输出源	现有跟踪	实时代理终结点响应
自定义标记架构	✅ 是 - 定义自定义问题和条件	❌ 否 - 使用固定反馈问题
存储在中的结果	MLflow 跟踪（标记会话内部）	MLflow 跟踪

先决条件

安装 MLflow 和所需包

pip install --upgrade "mlflow[databricks]>=3.1.0" openai "databricks-connect>=16.1"

请按照设置环境快速入门创建 MLflow 试验。
仅适用于 vibe 检查模式： 使用 Agent Framework 的已部署代理终结点

1.标记现有跟踪

标记现有跟踪可以收集已从生产或开发捕获的跟踪的结构化反馈。这非常适合用于生成评估数据集、了解质量模式和训练自定义 LLM 法官。

此过程涉及创建标记会话、定义要收集哪些反馈、添加要评审的跟踪以及与域专家共享。有关完整的分步说明，请参阅 “标记现有跟踪”。

有关标记会话、架构和配置选项的详细信息，请参阅标记会话和标记架构。

2. Vibe 检查模式

使用代理框架打包应用，并使用 Agent Framework 作为模型服务终结点进行部署。

将终结点添加到试验的评审应用：

注释

以下示例将 Databricks 托管 LLM 添加到评审应用。将终结点替换为步骤 1 中的应用终结点。

from mlflow.genai.labeling import get_review_app

# Get review app for current MLflow experiment
review_app = get_review_app()

# Connect your deployed agent endpoint
review_app.add_agent(
    agent_name="claude-sonnet",
    model_serving_endpoint="databricks-claude-3-7-sonnet",
)

print(f"Share this URL: {review_app.url}/chat")

域专家现在可以与应用聊天并提供即时反馈。

权限模型

用于标记现有跟踪

领域专家需要：

帐户访问权限：必须在 Databricks 帐户中预配，但不需要访问工作区
试验访问权限：对 MLflow 试验的写入权限

对于 vibe 检查模式

领域专家需要：

帐户访问权限：必须在 Databricks 帐户中预配，但不需要访问工作区
终结点访问： CAN_QUERY 模型服务终结点的权限

设置帐户访问权限

对于没有工作区访问权限的用户，帐户管理员可以：

使用帐户级 SCIM 预配从标识提供者同步用户
在 Databricks 中手动注册用户和组

内容呈现

“审阅应用”会自动呈现 MLflow 跟踪中的不同内容类型：

检索的文档：跨度内的RETRIEVER文档呈现以供显示
OpenAI 格式消息：呈现以下 OpenAI 聊天对话的 MLflow 跟踪的输入和输出：
- outputs 包含 OpenAI 格式 ChatCompletions 对象的
- inputs或outputs包含具有 messages听写
  - messages如果数组包含 OpenAI 格式工具调用，则它们也会呈现
字典：作为听写的 MLflow 跟踪的输入和输出呈现为相当打印的 JSON

否则，每个跟踪的 input 根范围和 output 根范围的内容将用作主要内容以供审阅。

访问反馈数据

专家提供反馈后，标签将存储在实验中的 MLflow 跟踪中。使用“ 跟踪 ”选项卡或“ 标记会话 ”选项卡查看数据。

后续步骤

标记现有跟踪 - 收集结构化专家反馈的分步指南
实时应用测试 - 为预生产测试设置氛围检查模式
生成评估数据集 - 将专家反馈转换为评估数据集

Last updated on 2025-09-22

通过