模型部署模式

本文介绍了将 ML 工件从过渡阶段转移到生产环境中的两种常见模式。模型和代码更改的异步性质意味着 ML 开发过程可能遵循多种可能的模式。

模型是由代码创建的，但生成的模型工件和创建它的代码可以异步运行。也就是说，新模型版本和代码更改可能不会同时发生。例如，考虑以下情况：

为了检测欺诈性交易，请开发一个每周可重新训练模型的 ML 管道。代码可能不会经常更改，但模型可能会每周进行重新训练以合并新数据。
可以创建一个大型的深度神经网络来对文档进行分类。在这种情况下，训练模型的计算成本高且耗时，并且重新训练模型可能不会频繁发生。但是，可以在不重新训练模型的情况下更新部署、服务和监视此模型的代码。

部署模式

这两种模式的不同之处在于是否将模型工件或生成模型工件的训练代码提升到生产。

部署代码（建议）

在大多数情况下，Databricks 建议使用“部署代码”方法。此方法已纳入建议的 MLOps 工作流。

在此模式中，用于训练模型的代码是在开发环境中开发的。相同的代码移至预发布环境，然后移至生产环境。模型在每个环境中进行训练：最初在开发环境中作为模型开发的一部分，在过渡阶段（在有限的数据子集上）作为集成测试的一部分，在生产环境中（在完整的生产数据上）生成最终模型。

优点：

缺点：

同样在这种模式下，数据科学家必须能够查看生产环境中的训练结果，因为他们拥有识别和修复特定于 ML 的问题的知识。

如果情况要求模型在整个生产数据集上进行分段训练，可以使用混合方法，将代码部署到分段，训练模型，然后将模型部署到生产。这种方法节省了生产中的训练成本，但增加了过渡阶段的额外运营成本。

在此模式中，模型工件是通过在开发环境中训练代码生成的。然后，在部署到生产环境之前，该工件在过渡阶段环境中进行了测试。

当以下一项或多项适用时，请考虑此选项：

优点：

缺点：

通常，环境（开发、暂存或生产）对应于 Unity Catalog 中的目录。有关如何实现此模式的详细信息，请参阅升级指南。

下图对比了上述部署模式在不同执行环境中的代码生命周期。

图中显示的环境是运行步骤的最终环境。例如，在部署模型模式中，最终单元和集成测试是在开发环境中执行的。在部署代码模式中，单元测试和集成测试在开发环境中运行，而最终单元和集成测试则在过渡环境中执行。

部署模式生命周期