大模型增量预训练-526互联

增量预训练也叫领域自适应预训练（domain-adapter pretraining），即在所属领域数据上继续预训练。

主要问题是在增量预训练后可能发生灾难性遗忘。

避免灾难性遗忘主要从以下几个方面入手：

1 领域相关性

增量数据与所选基座模型的原始训练数据尽量一定的相关性。

2 新数据分布与原始数据尽量相似

领域数据和通用数据的比率，结合具体数据：10%，15%，20%的都有。

度小满的轩辕2.0想到一个办法，让无监督数据和指令数据混合，合并增量预训练和微调两个阶段。

3 降低学习率

增量预训练2e-5；指令微调需要更低1e-6；但是得多跑几轮不然学不到领域知识

4 进行warm up

5 对新任务中参数的变化施加惩罚

6 知识蒸馏（KD），使微调模型的预测结果接近旧模型的预测结果。