大模型增量预训练

发布时间 2023-10-25 14:08:44作者: 是我菜了

增量预训练也叫领域自适应预训练(domain-adapter pretraining),即在所属领域数据上继续预训练。

主要问题是在增量预训练后可能发生灾难性遗忘。

避免灾难性遗忘主要从以下几个方面入手:

1 领域相关性

增量数据与所选基座模型的原始训练数据尽量一定的相关性。

2 新数据分布与原始数据尽量相似

领域数据和通用数据的比率,结合具体数据:10%,15%,20%的都有。

度小满的轩辕2.0想到一个办法,让无监督数据和指令数据混合,合并增量预训练和微调两个阶段。

3 降低学习率

增量预训练2e-5;指令微调需要更低1e-6;但是得多跑几轮不然学不到领域知识

4 进行warm up

5 对新任务中参数的变化施加惩罚

6 知识蒸馏(KD),使微调模型的预测结果接近旧模型的预测结果。