人类反馈对于构建满足用户期望的高质量 GenAI 应用程序至关重要。 MLflow 提供工具和数据模型,用于收集、管理和利用开发人员、最终用户和域专家的反馈。
数据模型概述
MLflow 将人类反馈存储为 评估,并附加到单个 MLflow 追踪。 这会将反馈直接链接到特定用户查询和 GenAI 应用的输出和逻辑。
有 2 种评估类型:
反馈:评估应用 的实际输出 或中间步骤。 例如,它回答诸如“代理的响应是否良好?”等问题。 反馈会评估应用生成的内容,例如评级或评论。 反馈评估应用生成的内容并提供定性见解。
期望:定义应用应生成的所需或正确的结果(基本事实)。 例如,这可能是用户查询的“理想响应”。 对于给定的输入,期望值始终相同。 期望定义应用应生成的内容,并可用于创建 评估数据集,
评估可以附加到整个追踪或追踪中的特定范围。
有关数据模型的详细信息,请参阅 跟踪数据模型。
如何收集反馈
MLflow 可帮助你从三个主要来源收集反馈。 每个源针对 GenAI 应用的生命周期中的不同用例量身定做。 虽然反馈来自不同的角色,但基础数据模型对于所有角色都是相同的。
开发人员反馈
在开发过程中,您可以直接对追踪记录进行批注。 这对于在构建和标记特定示例以供将来参考或回归测试时跟踪质量注释非常有用。 若要了解如何在开发期间批注反馈,请参阅 开发期间的标签。
域专家反馈和期望
请与主题专家联系,提供有关应用的输出和对应用输入的预期的结构化反馈。 其详细评估有助于定义特定用例中高标准的正确响应,对于将 LLM 评估员与复杂的业务需求协调一致来说是不可或缺的。 若要了解如何收集域专家反馈,请参阅 “收集域专家反馈”。
最终用户反馈
在生产环境中,捕获与实时应用程序交互的用户的反馈。 这提供了对实际性能的关键见解,帮助你识别需要修复的问题查询,并在将来的更新中保留并突出显示成功的交互。 若要了解如何收集最终用户反馈,请参阅 收集最终用户反馈。
后续步骤
- 开始收集人工反馈 - 逐步完成本整体教程,演示收集人工反馈的常见方法
- 开发中的标签 - 开始标注跟踪记录,以在开发过程中监测质量
- 收集域专家反馈 - 设置系统专家评审流程
- 与领域专家进行用户体验检查 - 与专家以交互方式测试应用