基于LLaMA的指令微调模型--Alpaca(大羊驼),Vicuna(小羊驼)

发布时间 2023-04-18 13:40:02作者: shiiiilong

Alpaca-7B

文章:https://crfm.stanford.edu/2023/03/13/alpaca.html

想要在预算内训练一个高质量的指令微调模型,就必须面临2个重要的挑战:

  • 一个强大的预训练语言模型

    • LLaMA
  • 一个高质量的指令遵循数据

    • Self-Instruct: Aligning Language Model with Self Generated Instructions
    image

Vicuna-13B

文章:https://vicuna.lmsys.org/

收集ShareGPT网站上的高质量指令数据

具体来说,Vicuna 以斯坦福的 Alpaca 为基础,并进行了如下改进:

  • 内存优化:为了使 Vicuna 能够理解长上下文,该研究将最大上下文长度从 512 扩展到 2048。这大大增加了 GPU 内存需求,因此该研究利用梯度检查点和闪存注意力来解决内存压力问题。

  • 多轮对话:该研究调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。

  • 通过 Spot 实例降低成本:该研究使用 SkyPilot 显著降低了成本,将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元削减至 300 美元左右。