专家模型增强AutoGPT-526互联

引言

心理学研究过人们当面对不同意见时的处理方式。当人们往往比较侧重于具有权威的意见，从而忽略忽略极少数的个别意见;并且人们还会比较侧重于自己而忽略其他人的意见。今天给大家分享的这篇文章，作者针对决策任务，对Auto-GPT代理进行了全面的基准研究，探索了大型语言模型（LLM）在决策任务中的应用。「实验结果表明GPT4有了类似于人类的能力，可以从不同的意见中提取有用信息，进行思考和批判然后提高自己的结果」。

Paper：https://arxiv.org/pdf/2306.02224.pdf

Code：https://github.com/younghuman/LLMAgent

背景介绍

最近，将大型语言模型（LLM）应用于自主代理（autonomous agents）在决策制定、角色模拟和工具应用等任务中取得了巨大成功。虽然扩大 LLM参数可以提升模型的通用能力，但若要将LLM直接用作自主代理仍然存在局限性。其主要原因是：缺乏长期记忆、输出内容不可控以及令牌长度限制。为克服这些问题，最近提出了各种提示、计划和记忆检索等方法，并得到了不错的效果。在所有代理中，有一个叫AutoGPT自主代理，它基于GPT连接到互联网并尝试完成任何任务。尽管在圈内引起了很大轰动，但由于能力受限，其完成任务的效果并不理想。

Auto-GPT智能体特征主要包括以下几个方面：

1.它可以直接接收最终的目标指令，实现复杂的多步任务，并且无需人类提供逐步引导；
2.对每个单独的行动步骤，它通过生成‘Thoughts’、’Reasoning’、’Plan’和’Criticism’来实现自我反省（实际上是CoT和Reflexion）；
3.具备能够将简单的工具指令和示例整合各种工具的能力；
4.能够融合了长期的自我记忆和记忆检索机制，仅需要提供目标定义和工具描述，就能适用于特定任务。

方法介绍

基于以上背景，作者探讨了Auto-GPT智能体的能力和局限性，并在在线决策任务上对Auto-GPT进行了深入的研究。在此过程中，「作者还提出了一种新方法，即通过外部模型提供额外意见的方式来增强LLMs」。

测试任务&基线模型

「Webshop」：它是一个模拟网购环境，该环境从亚马逊电商平台抓取超过118万个产品，并提供了如搜索、点击、导航、购买等真实客户操作。该评估过程主要看智能体是否成功购买了描述的产品，并且要求需要产品、属性、选项和价格全都匹配。该任务的基线模型采用模仿学习（IL）方法的模型，并于采用Auto-GPT方式运行的大语言模型进行比较。

在Webshop试验中，如下图所示。GPT4表现出色，其性能超过了其他IL模型。尽管无图像输入的原始IL模型仅取得了适度的成功率，但是加入了图像输入的IL模型表现更好。然而，只使用GPT3.5或Claude的Auto-GPT代理表现不如原始IL模型。但是，GPT4本身的性能优于所有IL模型。「ALFWorld」：ALFWorld是一个研究环境，该环境包含超过25000个独特的、程序生成的任务，涵盖厨房、客厅、卧室等真实环境。它结合了复杂的任务导向和语言理解。此类任务需要agent具备解决复杂问题的能力，并对语言环境有深入的理解。基线模型使用模仿学习（IL）的DAgger agent进行，然后与采用Auto-GPT风格的生成语言模型进行比较。

在ALFWorld实验中，如下图所示。IL模型与Beam Search的组合显著优于无Beam Search的版本。而在AutoGPT设置中运行的Claude和GPT3.5的性能均未超越IL模型，但无论是否使用Beam Search，GPT4明显超越了IL模型的性能。

Prompt设计

在没有进行大规模调优的情况下，作者将任务需求问题直接作为Auto-GPT的目标，适配了Auto-GPT进行各项任务。比如输入像"I want to purchase a folding storage box that is easy to install, made of faux leather, and has dimensions of 60x40x40cm"的句子。

为了帮助Auto-GPT理解可用的行动，作者将每个行为表现为一个工具。值得注意的是，在没有示例的情况下，仅使用工具指令的效果较差。然而，只要有少量的示例，性能就会显著提高。因此，为了利用LLM的上下文学习能力，在工具演示过程中，添加了1到2个few-shot示例。

专家模型增强LLMs

「为了引入来自外部专家模型的额外意见，作者改进了Auto-GPT的工作流」，如下图所示。具体来说，具体来说，在Auto-GPT的决策阶段，从专家模型中抽样出前k个意见，并将这些意见放入提示的上下文部分，以供大语言模型参考。在这项工作中，作者简单地使用了对于每个任务都已经准备好的IL模型作为外部专家。提供给LLM额外意见的提示遵循这样的模板：‘Here’s one(a few) suggestion(s) for the command: Please use this suggestion as a reference and make your own judgement.’

实验结果

对于本文提出将大型语言模型（LLMs）与专家模型结合起来的方法。作者首先从专家模型中采样出前k个附加观点，然后将这些观点呈现给LLMs，让它们考虑这些观点并做出最后的决定。在实验中如上图，「发现GPT-4模型在处理额外意见时表现出极高的辨别能力」。即使在信息噪声中，GPT-4也能区分出有益和无关的建议。而GPT-3.5模型在面对可能导致混淆的输入时，表现出了明显的劣势。总的来说，LLM与额外意见的一致性或不一致性，很大程度上取决于LLM的理解能力和额外意见的质量。