人类反馈对于构建满足用户期望的高质量 GenAI 应用程序至关重要。 MLflow 提供工具和数据模型,用于收集、管理和利用开发人员、最终用户和域专家的反馈。
数据模型概述
MLflow 将人类反馈存储为 评估,并附加到单个 MLflow 追踪。 这会将反馈直接链接到特定用户查询和 GenAI 应用的输出和逻辑。
有 2 种评估类型:
反馈:评估应用 的实际输出 或中间步骤。 例如,它回答诸如“代理的响应是否良好?”等问题。 反馈会评估应用生成的内容,例如评级或评论。 反馈评估应用生成的内容并提供定性见解。
期望:定义应用应生成的所需或正确的结果(基本事实)。 例如,这可能是用户查询的“理想响应”。 对于给定的输入,期望值始终相同。 期望定义应用应生成的内容,并可用于创建 评估数据集,
评估可以附加到整个追踪或追踪中的特定范围。
有关数据模型的详细信息,请参阅 跟踪数据模型。
如何收集反馈
MLflow 可帮助你从三个主要来源收集反馈。 每个源针对 GenAI 应用的生命周期中的不同用例量身定做。 虽然反馈来自不同的角色,但基础数据模型对于所有角色都是相同的。
开发人员反馈
在开发过程中,您可以直接对追踪记录进行批注。 这对于在构建和标记特定示例以供将来参考或回归测试时跟踪质量注释非常有用。
若要了解如何在开发期间批注反馈,请参阅 开发期间的标签。
域专家反馈
让主题专家就应用的输出提供结构化反馈,并定义正确响应的预期。 其详细评估有助于明确高质量响应在您特定用例中的表现,并且对于将 LLM 评审专家与精细的业务需求保持一致是极为宝贵的。
MLflow 提供了两种使用评审应用收集域专家反馈的方法:
使用聊天 UI 进行交互式测试:专家通过聊天界面实时与部署的应用交互,在测试聊天流时提供对响应的即时反馈。 此方法非常适合在生产部署之前进行“氛围检查”和定性验证。 若要了解详细信息,请参阅 使用聊天 UI 测试应用版本。
标记现有跟踪:专家系统地审查和标记已从应用程序中捕获的跟踪。 此方法非常适合于结构化评估会话,其中专家会评估特定示例并定义基本真相预期。 若要了解详细信息,请参阅 “标记现有跟踪”。
最终用户反馈
在生产环境中,捕获与实时应用程序交互的用户的反馈。 这提供了对实际性能的关键见解,帮助你识别需要修复的问题查询,并在将来的更新中保留并突出显示成功的交互。 MLflow 提供工具,用于直接从已部署应用程序的用户捕获、存储和分析反馈。
若要了解如何收集最终用户反馈,请参阅跟踪部分中 的“收集最终用户反馈 指南”。
后续步骤
- 开始收集人工反馈 - 逐步完成本整体教程,演示收集人工反馈的常见方法。
- 开发时标记 - 开始标记追踪,以便在开发过程中跟踪质量。
- 使用聊天 UI 测试应用版本 - 使用实时聊天界面以交互方式测试应用。
- 标记现有跟踪 - 建立系统化的专家评审流程。