本页介绍了 MLflow 3 for GenAI 如何与 Databricks 平台集成,帮助你构建生产级 GenAI 应用。
传统软件和 ML 测试不是为 GenAI 自由格式语言构建的,因此团队难以衡量和提高质量。 MLflow 3 通过将支持 AI 的指标与全面的跟踪可观测性相结合来解决这一问题,使你能够在整个应用程序生命周期内测量、改进和监视质量。
在 Databricks 上使用 MLflow 3 for GenAI 时,可以获得 Databricks 平台的所有优势,包括以下内容:
- 统一平台。 整个 GenAI 开发过程在一个位置,从开发调试到生产监视。
- 开放灵活。 使用任何 LLM 提供程序和任何框架。
- 企业就绪。 Databricks 平台提供企业安全性、规模和治理。 MLflow 3 通过将 支持 AI 的指标 与全面的 跟踪可观测性相结合来解决这一问题,使你能够在整个应用程序生命周期 内测量、改进和监视 质量。
有关入门的一组教程,请参阅 MLflow 3 for GenAI 入门。
注释
开源遥测集合在 MLflow 3.2.0 中引入, 默认在 Databricks 上禁用。 有关更多详细信息,请参阅 MLflow 使用情况跟踪文档。
使用跟踪功能观察和调试 GenAI 应用
确切地了解 GenAI 应用程序使用全面的可观测性来捕获执行的每个步骤。 只需添加一行代码,MLflow 跟踪将捕获应用程序内的所有提示、检索、工具调用、响应、延迟和令牌计数。
# Just add one line to capture everything
mlflow.autolog()
# Your existing code works unchanged
response = client.chat.completions.create(...)
# Traces are automatically captured!
功能 / 特点 | Description |
---|---|
自动检测 | 适用于 20 多个库的一行检测,包括 OpenAI、LangChain、LlamaIndex、人类和 DSPy。 |
查看应用的行为和性能 | 通过完整的执行可见性,可以捕获提示、检索、工具调用、响应、延迟和成本。 |
生产可观测性 | 在开发和生产环境中使用相同的检测进行一致的评估。 |
OpenTelemetry 兼容性 | 在保持完全数据所有权和集成灵活性的同时,随时随地导出跟踪。 |
GenAI 应用的自动化质量评估
将手动测试替换为使用内置和基于 LLM 的评分器进行自动评估,这些评分器与人类专业知识相匹配,并可在开发和生产中应用。
功能 / 特点 | Description |
---|---|
内置评分器 | 现成的评分器,用于评估安全、幻觉、相关性、正确性和检索质量。 |
自定义评分器 | 创建定制的法官,以强制执行特定的业务需求,并与领域专家判断保持一致。 |
将生产数据转换为改进
每个生产交互都成为通过集成反馈和评估工作流改进的机会。
功能 / 特点 | Description |
---|---|
专家反馈收集 | 评审应用提供了一个结构化的过程和 UI,用于收集域专家反馈,包括与应用程序实际交互的评级、更正和指南。 |
实时应用测试 | 主题专家可以与应用聊天,并为持续改进提供即时反馈。 |
来自生产环境的评估数据集 | 评估数据集可实现一致的可重复评估。 有问题的生产跟踪将成为持续改进和回归测试的测试用例。 |
用户反馈集合 | 捕获用户反馈并将其链接到用于调试和质量改进见解的特定跟踪。 从已部署的应用程序以编程方式收集大拇指和注释。 |
使用跟踪评估和提高质量 | 分析跟踪以识别质量问题、从跟踪数据创建评估数据集、实现有针对性的改进以及衡量更改的影响。 |
管理 GenAI 应用程序生命周期
使用企业级生命周期管理和治理工具对整个 GenAI 应用程序进行版本、跟踪和管理。
功能 / 特点 | Description |
---|---|
应用程序版本控制 | 跟踪每个版本的代码、参数和评估指标。 |
生产跟踪链接 | 将跟踪、评估和反馈链接到特定应用程序版本。 |
提示注册表 | 通过 A/B 测试功能和 Unity 目录集成,集中管理整个组织中的版本控制和共享提示。 |
企业集成 |
Unity Catalog。 使用企业安全性、访问控制和合规性功能对所有 AI 资产进行统一治理。 数据智能。 将 GenAI 数据连接到 Databricks Lakehouse 中的业务数据,并向业务利益干系人提供自定义分析。 马赛克 AI 代理服务。 使用缩放和作严格性将代理部署到生产环境。 |
适用于 GenAI 的 MLflow 3 入门
开始使用全面的可观测性和评估工具构建更好的 GenAI 应用程序。
任务 | Description |
---|---|
快速入门指南 | 使用检测第一个应用程序的分步说明,在几分钟内启动并运行。 |
Databricks Notebook 设置 | 从预配置的依赖项和即时访问 MLflow 3 功能的托管环境中开始。 |
本地 IDE 开发 | 在本地计算机上开发,具有完整的 MLflow 3 功能和无缝云集成。 |
数据智能集成 | 将 GenAI 数据连接到 Databricks Lakehouse 中的业务数据,以获取自定义分析和见解。 |