MLflow 提供全面的代理评估和 LLM 评估功能,可帮助你衡量、改进和维护 AI 应用程序的质量。 MLflow 支持整个开发生命周期,从测试到对 LLM、代理、RAG 系统或其他 GenAI 应用程序进行生产监视。
评估 AI 代理和 LLM 比传统的 ML 模型评估更为复杂。 这些应用程序涉及多个组件、多轮次对话和细微差别的质量标准。 定性和定量指标都需要专门的评估方法来准确评估性能。
MLflow 3 的评估和监视组件旨在帮助识别质量问题和这些问题的根本原因。 它基于 MLflow 跟踪构建,它在开发、测试和生产阶段提供实时跟踪日志记录。 它还包括内置的 LLM 法官和用于收集人工反馈的综合评审应用。 如图所示,在开发和生产中使用相同的 LLM 法官,确保在整个应用程序生命周期内进行一致的评估。
此图显示了高级迭代工作流。
在开发过程中,针对评估数据集测试应用。 还可以使用 评审应用 为域专家部署版本,以便根据与应用的交互来测试和添加到评估数据集。 可以使用 MLflow 预生成的记分器或自定义评分器来评估应用在数据集上的性能。
将应用部署到生产环境后,使用相同的记分器来监视其性能。 可以从生产查询保存 MLflow 跟踪,并将其添加到评估数据集,以便将来进行迭代应用开发。
| 功能 / 特点 | Description |
|---|---|
| 10 分钟演示:评估 GenAI 应用 | 启动一个快速演示笔记本程序,引导您创建和追踪一个简单的 GenAI 应用程序,定义评估标准,运行评估,查看结果,并修改提示后重新评估。 |
| 教程:评估和改进 GenAI 应用程序 | 逐步完成完整评估工作流的教程。 了解如何使用评估数据集来评估质量、识别问题并迭代改进应用。 根据实际使用情况创建评估数据集。 使用评估框架来利用预构建和自定义评分器评估质量。 查看结果以帮助确定质量问题的根本原因。 比较版本以确定更改的质量是否得到改善,并且不会导致回归。 |
| 监控生产环境中的应用 (Beta 版) | 在生产 GenAI 应用程序跟踪上自动运行记分器,以持续监视质量。 可以安排任何评分器自动评估生产流量的样本。 |
| 内置 LLM 法官 | 内置 LLM 评委是入门的最简单方法。 |
| 创建自定义 LLM 评委 | 随着您的应用程序变得更加复杂,您可以创建自定义的 LLM 评判工具来优化评估标准,以满足用例的特定业务需求,并与领域专家的判断保持一致。 |
| 编写自己的自定义评分器代码 | 自定义评分器提供灵活性来定义针对特定业务用例定制的评估指标。 |
| 生成 MLflow 评估数据集 | 生成评估数据集,系统地测试和改进 GenAI 应用程序的质量。 将来自测试或生产查询的跟踪添加进去。 |
注释
代理评估与托管 MLflow 3 集成。 代理评估 SDK 方法现已通过 mlflow[databricks]>=3.1 SDK 可用。 请参阅 从代理评估迁移到 MLflow 3 以更新 MLflow 2 代理评估代码以使用 MLflow 3。