为啥Decoder-Only这条路线效果最好?

发布时间 2023-11-14 13:59:30作者: 蝈蝈俊

https://arxiv.org/pdf/2304.13712.pdf 这篇论文中有个现代大型语言模型(LLM)的演变树,可以看出:同一分支上的模型关系更为紧密。

图说明:

  • 基于 Transformer 模型以非灰色显示:
    • decoder-only 模型在蓝色分支,
    • encoder-only 模型在粉色分支,
    • encoder-decoder 模型在绿色分支。
  • 模型在时间线上的垂直位置表示它们的发布日期。
  • 开源模型由实心方块表示,而闭源模型由空心方块表示。
  • 右下角的堆积条形图显示了各公司和机构的模型数量。

从时间轴上,我们可以看到:

2021年前当 OpenAI 决定在 GPT 系列中采用 Decoder-Only 架构时,他们实际上是在逆流而上。在那个时代,Encoder-Decoder 架构,如在 BERT 和 Transformer 模型中见到的,是技术巨头和学术界的宠儿,而 Decoder-Only 架构则被视为一条不被主流认可的小径。

然而,正是这种冒险的选择催生了一个突破性的产品——ChatGPT。它不仅挑战了当时的技术共识,还引领了一个全新的对话生成和文本续写的潮流。ChatGPT 展现的生成连贯、流畅和相关文本的能力,彻底颠覆了业界对 Decoder-Only 架构的看法,将其从一个被边缘化的选择转变为人工智能研究的前沿。

大语言模型常见架构

大语言模型如GPT系列(包括GPT-4)通常采用不同的架构,主要有三种:Decoder-Only、Encoder-Only、以及Encoder-Decoder。每种架构都有其独特的特点和适用场景:

Decoder-Only 方案

这就像一个讲故事的人。你给他一个开头,比如“有一次,一只小猫走失了”,然后他会继续这个故事,讲述下去,一直到故事结束。Decoder-Only模型就是这样,它接收一些信息(开头),然后生成接下来的内容(故事)。

特点:擅长创造性的写作,比如写小说或自动生成文章。它更多关注于从已有的信息(开头)扩展出新的内容。

OpenAI 选择了Decoder-Only方案(如GPT系列),因为它对于自然语言生成特别有效。这种架构能够更好地理解预测语言模式,尤其适合处理开放式的、生成性的任务。

Encoder-Only 方案

这就像是一个专业的书评家。他阅读和理解一本书(输入的信息),然后告诉你这本书是关于什么的,比如它的主题是爱情、冒险还是悬疑。Encoder-Only模型就是专注于理解和分析输入的信息,而不是创造新的内容。

特点:擅长理解分类信息,比如判断一段文本的情感倾向(积极还是消极)或者主题分类。

这种架构主要用于处理输入数据,专注于理解和编码信息,而不是生成新的文本。

Encoder-Only模型在理解分类任务中更为有效,例如文本分类、情感分析等。

Encoder-Decoder 方案(如BERT、T5)

这就像是翻译家。他先听你说一段话(比如英文),理解它,然后把它翻译成另一种语言(比如中文)。Encoder-Decoder模型就是这样,先理解输入的信息(Encoder部分),然后基于这个理解生成新的、相关的内容(Decoder部分)。

特点:擅长处理需要理解输入然后生成相关输出的任务,比如翻译问答系统。

这种模型在需要深入理解输入内容并生成相关响应的任务中表现良好,例如机器翻译、问答系统等。

从上面的介绍,我们可以看到,三种架构都有其适用场景,那为啥OpenAI选择的Decoder-Only大获成功呢?因为:

理解自然语言是通往通用人工智能(AGI)的关键路径

语言是人类智能的一个核心表现。通过有效地处理生成自然语言,人工智能系统可以更好地理解人类的意图、情感和知识,这是通向AGI的重要一步。

想象一下,语言就像是一座桥。这座桥连接着人类的思维世界与外部世界。当人们交流时,他们实际上是在这座桥上相遇,通过语言的桥梁来分享思想、情感和知识。

现在,设想人工智能(AI)像是一位初到陌生城市的旅者。最开始,这位旅者可能只懂得一些基本的词汇和短语,类似于旅游手册里的内容。随着时间的推移,如果他开始学习当地的语言,了解当地的文化和习俗,他就能更深入地理解这座城市,甚至能够与当地人进行深层次的交流。在这个过程中,这位旅者不仅学会了如何使用语言,还学会了理解当地人的想法、情感和行为方式。

把这个比喻应用到AI上,刚开始,AI就像是只懂得基础语言的旅者。但随着它学习和理解更多的自然语言,它就能更好地理解人类的意图、情感和复杂思想。这种深入的理解能力是通往通用人工智能(AGI)的桥梁,因为它不仅帮助AI理解语言本身,还帮助它理解使用这种语言的人类社会和文化。就像一个逐渐融入新城市的旅者,AI通过学习语言,能够逐渐理解并参与人类的世界。

较少的计算量

OpenAI首席科学家Ilya Sutskever有句话:

“语言是人类知识的压缩”

对比视觉和声音,语言的压缩比要高很多。

想象一下,你在收拾行李准备旅行。你有三种不同的物品:衣服(代表文字),书籍(代表图像),和音乐CD(代表声音)。你的目标是尽可能多地带走信息和娱乐,但行李箱的空间有限。

在这个比喻中,衣服是最容易打包的,因为它们可以压缩,占用的空间最小,而且你可以通过几件衣服就能表达很多风格和信息。这就像语言一样,简洁而信息密集。相比之下,书籍和CD则占用更多空间,因为它们包含的信息更分散、更多样。

在AI的世界里,处理文本(衣服)相对于处理图像(书籍)和声音(CD)来说,需要的计算资源要少得多。文本能以更简洁的形式包含大量信息,就像衣服可以压缩来节省空间一样。而处理图像和声音则像是在行李箱里塞满书籍和CD,需要更多的空间(在AI中即计算资源)。

这就是为什么在AI的发展中,我们首先看到的是擅长处理文本的AI(比如GPT系列),它们像是精通打包行李的专家,能够高效地处理和理解大量信息。而多模态AI(同时处理文本、图像和声音的AI)则是后来出现的,因为它们需要处理更多样化、更占用资源的数据类型,就像一个需要在有限空间内安排各种不同物品的旅行者。

较少的计算资源

通常来说,在实现相似的效果时,Decoder-Only 模型(如GPT系列)相对于其他架构(Encoder-Only 或 Encoder-Decoder)通常需要较少的计算资源。

架构效率:Decoder-Only 模型专注于序列生成,其架构更加直接和高效地适应语言模式预测和生成任务。由于这种单一焦点,模型可以更有效地学习和应对特定类型的任务,如文本生成或对话系统,这通常意味着需要较少的资源来达到优异的性能。

训练和调优:Decoder-Only 模型在训练和调优过程中,由于其结构的简洁性,通常可以更快地适应任务需求。这意味着在达到特定性能水平时,可能需要较少的训练时间和计算资源。

数据处理:Decoder-Only 模型在处理生成任务时通常比Encoder-Decoder模型更直接高效,因为它们无需在两个不同的模块间切换或同步信息。这种简化在处理大量数据时尤为明显。

适用性和灵活性:Decoder-Only 模型因其出色的自然语言生成能力,在很多情况下可以用较小的模型达到类似大型Encoder-Decoder模型的效果。这种灵活性减少了对大规模资源的需求。

总结

ChatGPT刚开始出来的时候,很多人说它只不过是在预测下一个字符,就是个概率统计而已,只不过是“鹦鹉学舌”,因此觉得它没有人类的智能。这个判断现在看来是非常肤浅的。就是这个简单的 预测下个字符,才是正确的路线,让AI理解了语言,继而理解人类,走向了正确的AGI之路。