MLflow 的评估和监视功能有助于系统地衡量、改进和维护 GenAI 应用程序的质量,从开发到生产。
生成式 AI 应用程序很复杂,涉及许多不同的组件。 评估这些应用程序的性能并不像评估传统 ML 模型的性能那么简单。 用于评估质量的定性和定量指标本质上都更为复杂。
MLflow 3 的评估和监视组件旨在帮助识别质量问题和这些问题的根本原因。 它基于 MLflow 跟踪构建,它在开发、测试和生产阶段提供实时跟踪日志记录。 它还包括内置的基于 LLM 的评分器和用于收集人工反馈的集成评审应用。 如图所示,在开发和生产中使用相同的基于 LLM 的评分器,确保在整个应用程序生命周期内进行一致的评估。
此图显示了高级迭代工作流。
在开发过程中,针对评估数据集测试应用。 还可以使用 评审应用 为域专家部署版本,以便根据与应用的交互来测试和添加到评估数据集。 可以使用 MLflow 预生成的记分器或自定义评分器来评估应用在数据集上的性能。
将应用部署到生产环境后,使用相同的记分器来监视其性能。 可以从生产查询保存 MLflow 跟踪,并将其添加到评估数据集,以便将来进行迭代应用开发。
功能 / 特点 | Description |
---|---|
10 分钟演示:评估 GenAI 应用 | 启动一个快速演示笔记本程序,引导您创建和追踪一个简单的 GenAI 应用程序,定义评估标准,运行评估,查看结果,并修改提示后重新评估。 |
教程:评估和改进 GenAI 应用程序 | 逐步完成完整评估工作流的教程。 了解如何使用评估数据集来评估质量、识别问题并迭代改进应用。 根据实际使用情况创建评估数据集。 使用评估框架来利用预构建和自定义评分器评估质量。 查看结果以帮助确定质量问题的根本原因。 比较版本以确定更改的质量是否得到改善,并且不会导致回归。 |
监控生产环境中的应用 (Beta 版) | 在生产 GenAI 应用程序跟踪上自动运行记分器,以持续监视质量。 可以安排任何评分器自动评估生产流量的样本。 |
使用内置的 LLM 评分器 | 基于 LLM 的内置评分器是入门的最简单方法。 |
创建自定义基于 LLM 的评分器 | 随着应用程序变得更加复杂,可以创建自定义基于 LLM 的记分器来优化用例的特定业务需求的评估条件,并符合域专家的判断。 |
编写自己的自定义评分器代码 | 自定义评分器提供灵活性来定义针对特定业务用例定制的评估指标。 |
生成 MLflow 评估数据集 | 生成评估数据集,系统地测试和改进 GenAI 应用程序的质量。 将来自测试或生产查询的跟踪添加进去。 |
注释
代理评估与托管 MLflow 3 集成。 代理评估 SDK 方法现已通过 mlflow[databricks]>=3.1
SDK 可用。 请参阅 从代理评估迁移到 MLflow 3 以更新 MLflow 2 代理评估代码以使用 MLflow 3。