适用于 GenAI 的 MLflow 3

适用于 GenAI 的 MLflow 3 是一个开放平台,在整个开发和生产生命周期内统一 GenAI 应用和代理的跟踪、评估和可观测性。 它包括实时跟踪日志记录、内置和自定义记分器、人工反馈的合并和版本跟踪,以帮助你在开发过程中高效评估和改进应用质量,并继续跟踪和提高生产质量。

Databricks 上的托管 MLflow 扩展了开源 MLflow,其功能专为生产 GenAI 应用程序而设计,包括企业级治理、完全托管、生产级扩展,以及与 Databricks Lakehouse 和 Unity Catalog 中的数据集成。

对于 MLflow 3,代理评估 SDK 方法已与 Databricks 管理的 MLflow 集成。

有关入门的一组教程,请参阅 入门

MLflow 3 如何帮助优化 GenAI 应用质量

评估 GenAI 应用程序和代理比评估传统软件更为复杂。 输入和输出通常是自由格式的文本,许多不同的输出可以被视为正确。 质量不仅取决于正确性,还取决于特定于用例的精度、长度、完整性、适当性和其他标准等因素。 由于 LLM 本质上是不确定的,并且 GenAI 代理包含其他组件,例如检索器和工具,因此其响应可能因运行而异。

开发人员需要具体的质量指标、自动化评估和持续监视来构建和部署可靠的 AI 应用。 适用于 GenAI 的 MLflow 3 提供了以下关键部分,用于高效开发、部署和持续改进:

在 Databricks 上使用 MLflow 3,可以将 AI 引入数据,以帮助你深入了解和提高质量。 Unity 目录为提示、应用和跟踪提供一致的治理。 使用任何模型或框架,MLflow 在从开发阶段到最终生产部署的整个过程中提供支持。

开始

开始使用全面的可观测性和评估工具构建更好的 GenAI 应用程序。

任务 Description
快速入门指南 在几分钟内按照分步说明快速启动并运行,给您的第一个应用程序进行跟踪、运行评估,并收集人工反馈。
入门:GenAI 的 MLflow 追踪(Databricks Notebook) 实现简单的 GenAI 应用程序,以自动捕获详细的跟踪用于调试和优化。
教程:评估和改进 GenAI 应用程序 通过以下步骤来评估使用RAG(检索增强生成,Retrieval-Augmented Generation)的电子邮件生成应用程序。
10 分钟演示:收集人工反馈 收集最终用户反馈、添加开发人员批注、创建专家评审会话,并使用该反馈评估 GenAI 应用的质量。

跟踪

MLflow 跟踪提供可观测性,并记录评估和监视所需的跟踪数据。

功能 / 特点 Description
MLflow 跟踪 GenAI 应用程序的端到端可观测性,包括基于代理的复杂系统。 跟踪输入、输出、中间步骤和元数据,以全面了解应用的行为方式。
什么是跟踪? 跟踪概念简介。
查看应用的行为和性能 通过完整的执行可见性,可以捕获提示、检索、工具调用、响应、延迟和成本。
生产可观测性 在开发和生产环境中使用相同的检测进行一致的评估。
生成评估数据集 分析跟踪以识别质量问题、选择代表性跟踪、创建评估数据集,并系统地改进应用程序。
跟踪集成 MLflow 跟踪与许多库和框架集成,实现自动跟踪,让你能够通过最少的配置立即观察你的 GenAI 应用程序。

评估和监视

使用内置的自定义 LLM 评委和评分器将手动测试替换为自动评估,这些法官和评分器与人类专业知识相匹配,并可在开发和生产中应用。 每个生产交互都成为通过集成反馈和评估工作流改进的机会。

功能 / 特点 Description
评估和监视 GenAI 代理 在 Databricks 上使用 MLflow 3 评估和监视代理的概述。
LLM 评委和得分员 MLflow 3 包括内置的 LLM 评估器,以评估安全性、相关性、正确性、检索质量等。 还可以根据特定的业务需求创建自定义 LLM 评委和基于代码的评分器。
评估 在开发期间或作为发布过程的一部分运行评估。
生产监视 通过 LLM 评委和评分器持续监视生产流量样本。
收集人工反馈 在开发和生产期间收集并使用域专家和最终用户的反馈,以便持续改进。

管理 GenAI 应用生命周期

使用企业级生命周期管理和治理工具对整个 GenAI 应用程序进行版本、跟踪和管理。

功能 / 特点 Description
应用程序版本控制 跟踪每个版本的代码、参数和评估指标。
提示管理库 通过 A/B 测试功能和 Unity 目录集成,集中管理整个组织中的版本控制和共享提示。
企业集成 Unity Catalog。 使用企业安全性、访问控制和合规性功能对所有 AI 资产进行统一治理。
数据智能。 将 GenAI 数据连接到 Databricks Lakehouse 中的业务数据,并向业务利益干系人提供自定义分析。
马赛克 AI 代理服务。 使用缩放和作严格性将代理部署到生产环境。