다음을 통해 공유

评估和监视 AI 代理

MLflow 提供全面的代理评估和 LLM 评估功能,可帮助你衡量、改进和维护 AI 应用程序的质量。 MLflow 支持整个开发生命周期,从测试到对 LLM、代理、RAG 系统或其他 GenAI 应用程序进行生产监视。

评估 AI 代理和 LLM 比传统的 ML 模型评估更为复杂。 这些应用程序涉及多个组件、多轮次对话和细微差别的质量标准。 定性和定量指标都需要专门的评估方法来准确评估性能。

MLflow 3 的评估和监视组件旨在帮助识别质量问题和这些问题的根本原因。 它基于 MLflow 跟踪构建,它在开发、测试和生产阶段提供实时跟踪日志记录。 它还包括内置的 LLM 法官和用于收集人工反馈的综合评审应用。 如图所示,在开发和生产中使用相同的 LLM 法官,确保在整个应用程序生命周期内进行一致的评估。

此图显示了高级迭代工作流。

MLflow 3 评估和监视概述图

在开发过程中,针对评估数据集测试应用。 还可以使用 评审应用 为域专家部署版本,以便根据与应用的交互来测试和添加到评估数据集。 可以使用 MLflow 预生成的记分器或自定义评分器来评估应用在数据集上的性能。

将应用部署到生产环境后,使用相同的记分器来监视其性能。 可以从生产查询保存 MLflow 跟踪,并将其添加到评估数据集,以便将来进行迭代应用开发。

功能 / 特点 Description
10 分钟演示:评估 GenAI 应用 启动一个快速演示笔记本程序,引导您创建和追踪一个简单的 GenAI 应用程序,定义评估标准,运行评估,查看结果,并修改提示后重新评估。
教程:评估和改进 GenAI 应用程序 逐步完成完整评估工作流的教程。 了解如何使用评估数据集来评估质量、识别问题并迭代改进应用。
根据实际使用情况创建评估数据集。 使用评估框架来利用预构建和自定义评分器评估质量。
查看结果以帮助确定质量问题的根本原因。 比较版本以确定更改的质量是否得到改善,并且不会导致回归。
监控生产环境中的应用Beta 版) 在生产 GenAI 应用程序跟踪上自动运行记分器,以持续监视质量。 可以安排任何评分器自动评估生产流量的样本。
内置 LLM 法官 内置 LLM 评委是入门的最简单方法。
创建自定义 LLM 评委 随着您的应用程序变得更加复杂,您可以创建自定义的 LLM 评判工具来优化评估标准,以满足用例的特定业务需求,并与领域专家的判断保持一致。
编写自己的自定义评分器代码 自定义评分器提供灵活性来定义针对特定业务用例定制的评估指标。
生成 MLflow 评估数据集 生成评估数据集,系统地测试和改进 GenAI 应用程序的质量。 将来自测试或生产查询的跟踪添加进去。

注释

代理评估与托管 MLflow 3 集成。 代理评估 SDK 方法现已通过 mlflow[databricks]>=3.1 SDK 可用。 请参阅 从代理评估迁移到 MLflow 3 以更新 MLflow 2 代理评估代码以使用 MLflow 3。