QLoRa：在消费级GPU上微调大型语言模型-526互联

大多数大型语言模型(LLM)都无法在消费者硬件上进行微调。例如，650亿个参数模型需要超过780 Gb的GPU内存。这相当于10个A100 80gb的gpu。就算我们使用云服务器，花费的开销也不是所有人都能够承担的。

而QLoRa (Dettmers et al.， 2023)，只需使用一个A100即可完成此操作。

在这篇文章中将介绍QLoRa。包括描述它是如何工作的，以及如何使用它在GPU上微调具有200亿个参数的GPT模型。

为了进行演示，本文使用nVidia RTX 3060 12 GB来运行本文中的所有命令。这样可以保证小显存的要求，并且也保证可以使用免费的Google Colab实例来实现相同的结果。但是，如果你只有较小内存的GPU，则必须使用较小的LLM。

完整文章：