使用 MLflow 进行 ML 生命周期管理
本文介绍如何在 Databricks 中使用 MLflow 进行机器学习生命周期管理。 本文还提供了一些示例,介绍每个 MLflow 组件以及描述这些组件在 Azure Databricks 中的托管方式的内容的链接。
Databricks 中的 ML 生命周期管理由托管 MLflow 提供。 Azure Databricks 提供与企业安全性功能、高可用性和其他 Azure Databricks 工作区功能(例如试验和运行管理,以及笔记本修订版捕获)集成的完全托管式 MLflow 版本。
首次使用的用户应从 MLflow 试验入门开始,该入门教程演示了基本 MLflow 跟踪 API。
什么是 MLflow?
MLflow 是用于管理端到端机器学习生命周期的开源平台。 它具有以下主要组件:
- 跟踪:用于跟踪试验,以记录和比较参数与结果。
- 模型:用于通过各种 ML 库管理模型,并将其部署到各种模型服务和推理平台。
- 项目:用于将 ML 代码打包成可重用、可再现的格式,以便与其他数据科学家共享或转移到生产环境。
- 模型注册表:使你可以将模型存储集中化,以便使用版本控制和批注的功能来管理模型的完整生命周期阶段转换:从过渡到生产。 Databricks 提供 Unity Catalog 中的模型注册表的托管版本。
MLflow 支持 Java、Python、R 和 REST API。
MLflow 数据由 Azure Databricks 使用平台管理的密钥进行加密。 不支持将客户管理的密钥用于托管服务的加密。
MLflow 跟踪
Azure Databricks 上的 MLflow 提供集成体验用于跟踪和保护机器学习模型与深度学习模型的训练运行。
模型生命周期管理
MLflow 模型注册表是一个集中式模型存储库,还是一个 UI 和 API 集,可用于管理 MLflow 模型的完整生命周期。 Databricks 提供 Unity Catalog 中的 MLflow 模型注册表的托管版本。 Unity Catalog 提供集中式模型治理、跨工作区访问、数据世系和部署。 有关在 Unity Catalog 中管理模型生命周期的详细信息,请参阅在 Unity Catalog 中管理模型生命周期。
如果未为 Unity Catalog 启用工作区,可以使用工作区模型注册表。
模型注册表概念
- 模型:MLflow 模型从使用模型风格的
mlflow.<model-flavor>.log_model
方法之一记录的试验或运行中记录。 记录模型后,可以将其注册到模型注册表。 - 已注册的模型:已注册到模型注册表的 MLflow 模型。 已注册的模型具有唯一的名称、版本、模型世系和其他元数据。
- 模型版本:已注册的模型的版本。 向模型注册表添加新模型时,它将添加为“版本 1”。 注册到同一模型名称的每个模型的版本号将递增。
- 模型别名:别名是对已注册模型的特定版本的可变命名引用。 别名的典型用途是指定在模型训练工作流中的给定环境中部署的模型版本,或者编写面向特定别名的推理工作负载。 例如,你可以将注册的“欺诈检测”模型的“Champion”别名分配给应为大部分生产流量提供服务的模型版本,然后编写面向该别名的推理工作负载(即,使用“Champion”版本进行预测)。
- 模型阶段(仅限工作区模型注册表):可以为模型版本分配一个或多个阶段。 MLflow 为常见用例提供了预定义的阶段:无、暂存、生产和已存档。 使用适当的权限,你可以在不同的阶段之间转换模型版本,也可以请求模型阶段转换。 Unity Catalog 中不使用模型版本阶段。
- 说明:你可以为模型的意图添加注释,包括说明和对团队有用的任何相关信息,例如算法说明、所采用的数据集,或者方法。
示例笔记本
有关演示如何使用模型注册表来管理模型生命周期的示例笔记本,请参阅以下内容: