Compartir a través de

适用于 GenAI 的 MLflow 3

本页介绍了 MLflow 3 for GenAI 如何与 Databricks 平台集成,帮助你构建生产级 GenAI 应用。

传统软件和 ML 测试不是为 GenAI 自由格式语言构建的,因此团队难以衡量和提高质量。 MLflow 3 通过将支持 AI 的指标与全面的跟踪可观测性相结合来解决这一问题,使你能够在整个应用程序生命周期内测量、改进和监视质量。

在 Databricks 上使用 MLflow 3 for GenAI 时,可以获得 Databricks 平台的所有优势,包括以下内容:

  • 统一平台。 整个 GenAI 开发过程在一个位置,从开发调试到生产监视。
  • 开放灵活。 使用任何 LLM 提供程序和任何框架。
  • 企业就绪。 Databricks 平台提供企业安全性、规模和治理。 MLflow 3 通过将 支持 AI 的指标 与全面的 跟踪可观测性相结合来解决这一问题,使你能够在整个应用程序生命周期 内测量、改进和监视 质量。

有关入门的一组教程,请参阅 MLflow 3 for GenAI 入门

注释

开源遥测集合在 MLflow 3.2.0 中引入, 默认在 Databricks 上禁用。 有关更多详细信息,请参阅 MLflow 使用情况跟踪文档

使用跟踪功能观察和调试 GenAI 应用

确切地了解 GenAI 应用程序使用全面的可观测性来捕获执行的每个步骤。 只需添加一行代码,MLflow 跟踪将捕获应用程序内的所有提示、检索、工具调用、响应、延迟和令牌计数。

# Just add one line to capture everything
mlflow.autolog()

# Your existing code works unchanged
response = client.chat.completions.create(...)
# Traces are automatically captured!

评估比较

功能 / 特点 Description
自动检测 适用于 20 多个库的一行检测,包括 OpenAI、LangChain、LlamaIndex、人类和 DSPy。
查看应用的行为和性能 通过完整的执行可见性,可以捕获提示、检索、工具调用、响应、延迟和成本。
生产可观测性 在开发和生产环境中使用相同的检测进行一致的评估。
OpenTelemetry 兼容性 在保持完全数据所有权和集成灵活性的同时,随时随地导出跟踪。

GenAI 应用的自动化质量评估

将手动测试替换为使用内置和基于 LLM 的评分器进行自动评估,这些评分器与人类专业知识相匹配,并可在开发和生产中应用。

功能 / 特点 Description
内置评分器 现成的评分器,用于评估安全、幻觉、相关性、正确性和检索质量。
自定义评分器 创建定制的法官,以强制执行特定的业务需求,并与领域专家判断保持一致。

将生产数据转换为改进

每个生产交互都成为通过集成反馈和评估工作流改进的机会。

跟踪摘要

功能 / 特点 Description
专家反馈收集 评审应用提供了一个结构化的过程和 UI,用于收集域专家反馈,包括与应用程序实际交互的评级、更正和指南。
实时应用测试 主题专家可以与应用聊天,并为持续改进提供即时反馈。
来自生产环境的评估数据集 评估数据集可实现一致的可重复评估。 有问题的生产跟踪将成为持续改进和回归测试的测试用例。
用户反馈集合 捕获用户反馈并将其链接到用于调试和质量改进见解的特定跟踪。 从已部署的应用程序以编程方式收集大拇指和注释。
使用跟踪评估和提高质量 分析跟踪以识别质量问题、从跟踪数据创建评估数据集、实现有针对性的改进以及衡量更改的影响。

管理 GenAI 应用程序生命周期

使用企业级生命周期管理和治理工具对整个 GenAI 应用程序进行版本、跟踪和管理。

功能 / 特点 Description
应用程序版本控制 跟踪每个版本的代码、参数和评估指标。
生产跟踪链接 将跟踪、评估和反馈链接到特定应用程序版本。
提示注册表 通过 A/B 测试功能和 Unity 目录集成,集中管理整个组织中的版本控制和共享提示。
企业集成 Unity Catalog。 使用企业安全性、访问控制和合规性功能对所有 AI 资产进行统一治理。
数据智能。 将 GenAI 数据连接到 Databricks Lakehouse 中的业务数据,并向业务利益干系人提供自定义分析。
马赛克 AI 代理服务。 使用缩放和作严格性将代理部署到生产环境。

适用于 GenAI 的 MLflow 3 入门

开始使用全面的可观测性和评估工具构建更好的 GenAI 应用程序。

任务 Description
快速入门指南 使用检测第一个应用程序的分步说明,在几分钟内启动并运行。
Databricks Notebook 设置 从预配置的依赖项和即时访问 MLflow 3 功能的托管环境中开始。
本地 IDE 开发 在本地计算机上开发,具有完整的 MLflow 3 功能和无缝云集成。
数据智能集成 将 GenAI 数据连接到 Databricks Lakehouse 中的业务数据,以获取自定义分析和见解。