概念 - 微调 AI 和机器学习工作流的语言模型

项目
2024/08/09

本文介绍语言模型微调，包括一些常见的微调方法，以及应用优化结果如何可以提高 Azure Kubernetes 服务 (AKS) 上的 AI 和机器学习工作流的性能。

预先训练的语言模型

预先训练的语言模型 (PLM) 提供了一种开始使用 AI 推理的便捷方法，并广泛用于自然语言处理 (NLP)。 PLM 是使用深度神经网络通过 Internet 在大规模文本语料库上训练的，可以针对特定任务在小型数据集上进行微调。这些模型通常由在预先训练过程中学习的数十亿个参数或权重组成。

PLM 可以学习通用语言表示形式来捕获自然语言的统计属性，例如在特定上下文中单词出现的概率或顺序。通过微调特定于任务的数据集上的模型，可以将这些表示形式传输到下游任务，例如文本分类、命名实体识别和问题解答。

优点和缺点

下表列出了在 AI 和机器学习工作流中使用 PLM 的一些优点和缺点：

优点	缺点
• 在机器学习生命周期中快速开始部署。 • 避免与模型训练相关的大量计算成本。 • 减少存储大型标记数据集的需求。	• 基于预先训练的数据源，可能提供通用或过时的响应。 • 可能不适合所有任务或域。 • 性能可能因推理上下文而异。

微调方法

参数高效微调

参数高效微调 (PEFT) 是一种在计算资源有限的相对较小的数据集上微调 PLM 的方法。 PEFT 使用加法和选择性方法等技术组合来更新权重，以提高模型在特定任务上的性能。 PEFT 需要最少的计算资源和灵活的数据量，适用于低资源设置。此方法保留了原始预训练模型的大部分权重，并会更新剩余权重以适应特定于上下文的标记数据。

低序自适应

低序自适应 (LoRA) 是一种 PEFT 方法，通常用于为新任务自定义大型语言模型。此方法会跟踪对模型权重的更改，并有效地存储仅表示模型的可训练参数的较小权重矩阵，从而降低内存使用量和微调所需的计算能力。 LoRA 会创建微调结果（称为适配器层），这些结果可以临时存储并拉取到模型的体系结构中，以用于新的推理作业。

量化低序自适应 (QLoRA) 是 LoRA 的一个扩展，它通过在适配器层中引入量化来进一步减少内存使用量。有关详细信息，请参阅使用 bitsandbites、4 位量化和 QLoRA 使 LLM 更易于使用。

尝试在 AKS 上微调语言模型

Kubernetes AI 工具链操作器 (KAITO) 是一个开源操作器，可在 Kubernetes 群集中自动执行小型和大型语言模型部署。 AI 工具链操作器加载项利用 KAITO 来简化载入、节省基础结构成本，并减少 AKS 群集上开源模型的推理时间。该加载项会自动预配大小正确的 GPU 节点，并将关联的推理服务器设置为所选模型的终结点服务器。

借助 KAITO 版本 0.3.0 或更高版本，可以使用以下功能有效地微调支持的 MIT 和 Apache 2.0 许可模型：

将重新训练的数据存储为专用容器注册表中的容器映像。
在专用容器注册表中托管新的适配器层映像。
在新方案中，可以使用适配器层高效拉取映像进行推理。

有关在 KAITO 上开始微调的指南，请参阅 Kaito 优化工作区 API 文档。若要详细了解如何在 AKS 群集中使用 KAITO 部署语言模型，请参阅 KAITO 模型 GitHub 存储库。

后续步骤

若要了解有关 AKS 上的容器化 AI 和机器学习工作负载的详细信息，请参阅以下文章：

通过