Tree-of-Thought-526互联

引言

人工智能的发展一直以来都是实现智能系统推理能力的主要目标之一。近年来，大型语言模型的发展取得了重大进展，特别是它们在上下文学习方面的应用，为机器推理开辟了新的途径，但其在复杂推理方面仍面临挑战。为此今天分享的这篇文章，介绍了一种名为“Tree-of-Thought（ToT）”的框架，旨在提高自回归大型语言模型（LLM）的复杂推理能力。该框架受到人类思维解决复杂推理任务的启发，通过试错过程探索新的解决方案，结果表明，在ToT框架下的求解成功率提高了80%以上。

背景介绍

如何让人工智能系统像人类一样思考，从而更高效地解决问题。作者主要介绍了大型语言模型（LLM）在自然语言处理方面的成功，但指出在其他领域中仍存在一些问题。作者提到，传统的LLM通常只能生成单个输出，而不能进行多轮对话或解决复杂的推理问题。此外，传统的LLM也缺乏记忆和反馈机制，无法进行有效的错误修正。为了解决这些问题，作者提出了Tree-of-Thought（ToT）框架。

ToT架构

上图(a)表示ToT搜索策略的细节，其中实线箭头表示由LLM的响应引导的搜索步骤，虚线箭头表示由ToT控制器命令的回溯。上图(b)表示执行ToT搜索策略的软件系统。它通过添加Prompter Agent、Checker Module、Memory Module和ToT控制器等附加模块来增强LLM解决问题的能力。其中：

「1、Prompter Agent」：它负责生成问题提示，并将其提供给LLM。Prompter Agent的最主要作用是为LLM提供一些启发性的信息，以帮助它更好地生成答案序列。

「2、LLM」：这是一个自回归大型语言模型，用于生成答案序列。

「3、Checker Module」：它负责检查LLM生成的答案序列是否正确。「它可以采用基于规则的方法或深度神经网络实现」。对于那些存在明确多项式时间算法的问题（即NP问题），可以使用基于规则的检查器。许多重要的数学和逻辑问题都属于这个范畴，例如方程求解、多项式因式分解、3SAT以及数独等谜题。使用基于规则的检查器，ToT软件可以被视为一个混合系统，允许将先前知识（例如数独规则）显式地编码到神经网络驱动的系统中。另一种选择是训练和使用基于神经网络的分类器作为检查器。这对于那些难以实现基于规则检查器的问题特别有用。

「4、Memory Module」：它可以用来存储LLM和提示器代理之间的整个对话历史记录，以及其他有用于问题解决的补充数据。存储的数据可以作为提示器代理生成有用提示的信息源。Memory Module记录了整个对话过程中的状态历史记录，这使得系统能够回溯到思考过程的先前步骤并从那里探索其他方向。这对于解决复杂推理任务非常有用。

「5、ToT Controller」：负责管理整个对话过程，包括与LLM和提示器代理之间的交互以及生成正确答案序列。在对话过程中，ToT Controller使用强化学习算法来学习如何生成正确答案序列。具体来说，它使用一种名为REINFORCE算法的改进版本来训练其策略网络。这个策略网络可以根据当前状态和历史状态生成下一个动作，即生成下一个可能的正确答案。通过不断地与LLM和提示器代理进行交互，并根据反馈信息调整其策略网络，ToT Controller可以逐渐提高其生成正确答案序列的能力。这使得ToT系统能够解决各种复杂推理任务，并在实验中取得了良好的效果。

「通过这些组件的协作，ToT架构可以使LLMs更好地处理复杂推理任务，并具有更好的错误纠正能力」。例如，在本文中作者使用ToT架构实现了一个数独求解器，并取得了良好的实验结果。总之，ToT架构是一种创新的方法，可以提高自回归大型语言模型的问题解决能力，具有广泛的应用前景。

应用案例

基于ToT实现的数独谜题求解器是本文的一个应用案例，它利用ToT框架来解决数独谜题。该求解器允许用户使用自然语言输入数独谜题，例如：“请解决这个4x4数独谜题[[3,*,*,2],[1,*,3,*],[*,1,*,3],[4,*,*,1]]，其中*表示待填充的单元格”。

在ToT框架下，数独谜题被视为一种复杂的推理任务。当用户输入问题描述后，提示器代理将问题传递给LLM，并提供额外的提示文本，以鼓励LLM生成中间解而不是一次性达到完整解决方案。LLM使用ToT控制器来管理对话过程，并使用强化学习算法来学习如何生成正确答案序列。

在实验中，作者测试了基于ToT实现的数独谜题求解器，并与其他方法进行了比较。结果表明，该求解器能够有效地解决各种难度级别的数独谜题，并且相对于其他方法具有更高的准确性和效率。

总结

本文介绍了基于ToT框架的数独谜题求解器，通过多轮对话的方式，实现了人工智能系统像人类一样思考的过程。实验结果表明，相比于传统的一次性和少次性求解器，ToT框架下的求解成功率提高了80%以上。此外，本文还探讨了ToT框架的局限性和未来扩展方向。这一研究为人工智能领域提供了新思路和新方法，有望在更广泛的问题领域中得到应用。

tree-of-thought thought tree of

chain-of-thought

knowledge-intensive chain-of-thought interleaving

chain-of-thought prompting language thought

chain-of-thought模型思维原理

chain-of-thought prompting reasoning language

思维thought chain of

cot chain-of-thought shot zero-shot

maximum-width-of-binary-tree