科研杂记-526互联

马上要跟老师汇报了，先写点杂记在博客上，整理一下整体的思路。

Scalable Oversight：

OpenAI：How can we use AI systems to assist humans in evaluating the outputs of other AI systems on complex tasks?
Importance：随着人工智能的水平不断提高，目前已经到了一个关键的阈值，2023年大模型大行其道，尤其是大型语言模型的出现，给各行各业都带来了显著的冲击，GPT-4的水平在大多数领域下可以达到人类专家的水平，于个人而言，GPT可以有效的帮助我提高日常生活的生产力，提高学习效率。但是我们很容易遇到一个问题，那么就是我们该如何确保GPT生成的内容是准确的？例如我给出一个要求，GPT生成了一段代码出来，我们该如何判断生成的代码是否是正确的？
一个显而易见的方法就是，既然有Online Judge的存在，我们可以直接放在OJ上跑，而没有OJ的我们可以本地编译，出几组测试样例尝试，看看他的正确性，但是这种Evaluation的手段并不能Scalable到其他的目标上。另一个例子是，GPT的能力这么强，我应该如何监管它不为犯罪分子所用，能让他保持Harmless呢？这一切的一切都需要我们人类的监督，人类的监督信号在保证其生成内容的准确性和无害性上起到了至关重要的作用。
RLHF(Reinforcement Learning From Human Feedback)是一种有效的提高模型能力和监督模型的办法，让模型在人类的反馈中学习是一种在目前的训练中极为有效的方法，但随着模型的能力逐渐提高，我们必然会遇到一个问题，我们人类该如何为一个能力远超于我们的人工智能系统提供持续有效的监督信号？这就是Scalable Oversight的一个最重要的Motivation，也是我们目前最重要的一个问题。
Scalable Oversight可以翻译为可扩展监督，我们考虑理解可扩展和监督这两个词是：首先，Scalable在广义上指的是模型能力的提升(参数增大)，任务domain的变化等；而Oversight指的是监督，监管，这种监督可以是人类为模型的Response提供Evaluation，或者说是Feedback，这里的Feedback可以考虑用处为Enhance Ability以及进行Alignment，实现AI safety。
那么省流版本：Scalable Oversight既是对模型的输出进行监督，以确保其符合人类价值观，不会产生AI Risks；也是通过不断的Learn From Feedback来提高模型的性能。
上面的几段我们主要讨论了Scalable Oversight主要的Motivation，其必要性就在于，我们目前无法为能力超过我们的人工智能提供有效的监督信号进行对齐or提高性能，我们需要想一个办法，能够让水平不如人工智能的我们也能为人工智能提供一些有效的监督，那么OpenAI提出的观点是“How can we use AI systems to assist humans in evaluating the outputs of other AI systems on complex tasks?”也就是说，我们考虑一个办法，能够让人类与AI协作，共同为Response提供Evaluation。
值得注意的是，OpenAI已经使用了10M Dollars以及20%的算力去投入这部分研究(Alignment，包括Scalable Oversight)，并且提供了极其Competitive的Fellowship给研究人员用于相关研究，甚至还包括了未毕业的学生！所以可以看到，这部分内容是目前AI研究最前沿，最重要的一些内容。
目前已经有的几种Scalable Oversight的办法分别是RRM，IDA，Debate，CIRL等，这些内容中，最为重要的就是RRM以及IDA的思想，不过由于我不想再回忆这些痛苦的论文，在这里就不介绍具体的原理。

Lean & Lsabelle

这部分先鸽一下