Alpaca-7B

想要在预算内训练一个高质量的指令微调模型，就必须面临2个重要的挑战：

一个强大的预训练语言模型
- LLaMA
一个高质量的指令遵循数据
- Self-Instruct: Aligning Language Model with Self Generated Instructions

Vicuna-13B

收集ShareGPT网站上的高质量指令数据

具体来说，Vicuna 以斯坦福的 Alpaca 为基础，并进行了如下改进：

内存优化：为了使 Vicuna 能够理解长上下文，该研究将最大上下文长度从 512 扩展到 2048。这大大增加了 GPU 内存需求，因此该研究利用梯度检查点和闪存注意力来解决内存压力问题。
多轮对话：该研究调整训练损失以考虑多轮对话，并仅根据聊天机器人的输出计算微调损失。
通过 Spot 实例降低成本：该研究使用 SkyPilot 显著降低了成本，将 7B 模型的训练成本从 500 美元削减至 140 美元左右，将 13B 模型的训练成本从 1000 美元削减至 300 美元左右。