迁移学习

迁移学习#

迁移学习是深度学习中的常用技术。它通过重复利用预训练网络的权重作为基础，来训练新模型。

其主要优势包括：

迁移学习示意图

这两个术语常被混淆，因为它们非常相似。实际上，微调是迁移学习的一种形式，仅重新训练模型中被重复利用的部分层。

明确定义如下：

微调是通过重新训练预训练模型的部分层，使其适应新任务。关键在于选择重新训练的层数。

如何选择层数？没有固定公式，通常依赖经验与以下规则：

通常，基于预训练模型总是有益的（除非领域差异极大）。建议尽可能使用。

但需注意以下限制：

注：在图像分类中，常使用基于ImageNet（含1000类）预训练的模型，因其通用性强。

微调模型时，通常有两种目标：

不同情况需采用不同的训练数据：

注：真正的开源需公开模型的代码、权重及训练数据。缺少任一元素，将难以有效微调，尤以大型语言模型（LLM）为甚。

基础模型是通过大规模数据（通常为无标签数据）训练而成，用作迁移学习或微调的基础。

NLP基础模型：如GPT、BLOOM、Llama、Gemini等，可通过微调适应不同任务。例如，ChatGPT即GPT的微调版本，专用于聊天机器人场景。
图像基础模型：概念尚存争议，不如NLP领域明确。常见模型有ViT、DINO、CLIP等。
音频基础模型：以CLAP为代表。