评估和监视

MLflow 的评估和监视功能有助于系统地衡量、改进和维护 GenAI 应用程序的质量,从开发到生产。

生成式 AI 应用程序很复杂,涉及许多不同的组件。 评估这些应用程序的性能并不像评估传统 ML 模型的性能那么简单。 用于评估质量的定性和定量指标本质上都更为复杂。

MLflow 3 的评估和监视组件旨在帮助识别质量问题和这些问题的根本原因。 它基于 MLflow 跟踪构建,它在开发、测试和生产阶段提供实时跟踪日志记录。 它还包括内置的基于 LLM 的评分器和用于收集人工反馈的集成评审应用。 如图所示,在开发和生产中使用相同的基于 LLM 的评分器,确保在整个应用程序生命周期内进行一致的评估。

此图显示了高级迭代工作流。

MLflow 3 评估和监视概述图

在开发过程中,针对评估数据集测试应用。 还可以使用 评审应用 为域专家部署版本,以便根据与应用的交互来测试和添加到评估数据集。 可以使用 MLflow 预生成的记分器或自定义评分器来评估应用在数据集上的性能。

将应用部署到生产环境后,使用相同的记分器来监视其性能。 可以从生产查询保存 MLflow 跟踪,并将其添加到评估数据集,以便将来进行迭代应用开发。

功能 / 特点 Description
10 分钟演示:评估 GenAI 应用 启动一个快速演示笔记本程序,引导您创建和追踪一个简单的 GenAI 应用程序,定义评估标准,运行评估,查看结果,并修改提示后重新评估。
教程:评估和改进 GenAI 应用程序 逐步完成完整评估工作流的教程。 了解如何使用评估数据集来评估质量、识别问题并迭代改进应用。
根据实际使用情况创建评估数据集。 使用评估框架来利用预构建和自定义评分器评估质量。
查看结果以帮助确定质量问题的根本原因。 比较版本以确定更改的质量是否得到改善,并且不会导致回归。
监控生产环境中的应用Beta 版) 在生产 GenAI 应用程序跟踪上自动运行记分器,以持续监视质量。 可以安排任何评分器自动评估生产流量的样本。
使用内置的 LLM 评分器 基于 LLM 的内置评分器是入门的最简单方法。
创建自定义基于 LLM 的评分器 随着应用程序变得更加复杂,可以创建自定义基于 LLM 的记分器来优化用例的特定业务需求的评估条件,并符合域专家的判断。
编写自己的自定义评分器代码 自定义评分器提供灵活性来定义针对特定业务用例定制的评估指标。
生成 MLflow 评估数据集 生成评估数据集,系统地测试和改进 GenAI 应用程序的质量。 将来自测试或生产查询的跟踪添加进去。

注释

代理评估与托管 MLflow 3 集成。 代理评估 SDK 方法现已通过 mlflow[databricks]>=3.1 SDK 可用。 请参阅 从代理评估迁移到 MLflow 3 以更新 MLflow 2 代理评估代码以使用 MLflow 3。