超级对齐简介zz-526互联

我们如何确保人工智能系统比人类聪明得多并遵循人类意图？

目前，我们还没有一个解决方案来引导或控制潜在的超级人工智能，并防止其失控。我们当前调整人工智能的技术，例如根据人类反馈进行强化学习，依赖于人类监督人工智能的能力。但人类无法可靠地监督比我们聪明得多的人工智能系统，乙[乙]

其他假设在未来也可能被打破，比如部署期间有利的泛化属性，或者我们的模型在训练期间无法成功检测和破坏监督。

因此我们目前的对齐技术无法扩展到超级智能。我们需要新的科学技术突破。

我们的方法

我们的目标是建立一个大致达到人类水平的自动对齐研究人员。然后，我们可以使用大量计算来扩展我们的工作，并迭代地调整超级智能。

为了对齐第一个自动对齐研究人员，我们需要 1) 开发可扩展的训练方法，2) 验证生成的模型，3) 对整个对齐管道进行压力测试：

为了针对人类难以评估的任务提供训练信号，我们可以利用人工智能系统来协助评估其他人工智能系统（可扩展的监督）。此外，我们希望了解和控制我们的模型如何将我们的监督推广到我们无法监督的任务（泛化）。
为了验证我们系统的一致性，我们自动搜索有问题的行为（稳健性）和有问题的内部结构（自动可解释性）。
最后，我们可以通过故意训练未对齐的模型来测试我们的整个流程，并确认我们的技术检测到最严重的未对齐类型（对抗性测试）。

我们预计，随着我们对这个问题的了解越来越多，我们的研究重点将会发生重大变化，并且我们可能会增加全新的研究领域。我们计划在未来分享更多有关我们的路线图的信息。