Alpaca-7B
文章:https://crfm.stanford.edu/2023/03/13/alpaca.html
想要在预算内训练一个高质量的指令微调模型,就必须面临2个重要的挑战:
-
一个强大的预训练语言模型
- LLaMA
-
一个高质量的指令遵循数据
- Self-Instruct: Aligning Language Model with Self Generated Instructions
Vicuna-13B
收集ShareGPT网站上的高质量指令数据
具体来说,Vicuna 以斯坦福的 Alpaca 为基础,并进行了如下改进:
-
内存优化:为了使 Vicuna 能够理解长上下文,该研究将最大上下文长度从 512 扩展到 2048。这大大增加了 GPU 内存需求,因此该研究利用梯度检查点和闪存注意力来解决内存压力问题。
-
多轮对话:该研究调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。
-
通过 Spot 实例降低成本:该研究使用 SkyPilot 显著降低了成本,将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元削减至 300 美元左右。