25个AI角色模拟人类社会共同生活与互动

发布时间 2023-04-11 17:12:23作者: BOTAI

  放任 25 个 AI 共同生活,他们竟然模拟起了人类的行动!

  不仅像人一样起床、刷牙、吃饭、睡觉,还会被迫“出门打工”,甚至在闲暇时分一起庆祝节日。

  这一切,来自斯坦福和谷歌的一项新研究——

  他们做了一个很新的实验,创造了 25 个 AI NPC,每个 NPC 都有不同的身份和行动决策,并让它们在一个沙盒环境中共同生活,背后依靠ChatGPT大模型来完成行动决策。

  结果发现,这些 AI NPC 不仅会像人一样生活,如作家就去写作、店主就去经营商店,而且他们彼此之间还会发生交互,甚至产生对话:

  研究一 po 出就爆火,宾大沃顿商学院教授 Ethan Mollick 表示:这些行动相比“角色扮演”,更像是正常人类会做出来的行动。

  OpenAI 科学家 Andrej Karpathy 更是直呼“这让开放世界游戏相形见绌”:

  所以,这个研究究竟构建了一个怎样的“AI 社会”?

  当 AI 玩起模拟人生

  从 Demo 展示来看,这 25 个 AI 有着不同的身份、性格和年龄:

  他们会在一个共同社区中生活,这些社区的构造非常详细,包括居住区、大学、公园、咖啡厅等:

  可以看见,每个 AI 都有自己的基础行程,包括起床、洗漱、吃饭、睡觉等,根据不同的身份设定,又会做出不同的行动,共同维持社区的运转。

  其中,Demo 中的 emoji 简单代表了 AI 正在进行的操作,如收发信件和吃饭:

  但在这其中,也会有交互行为产生:

  用的也不是 AI 的语言,而是人类说话的方式:

  不仅如此,这些相互之间可以产生互动的 AI,甚至还能听取人类玩家的要求,并采取对应的行动。

  例如论文作者提到,他们以人类的身份告诉其中一个 AI NPC,希望在社区举办一个“情人节派对”的活动。

  没想到,这位 AI NPC 不仅热情地答应了作者们的请求,自发开始组织起这场活动,包括时间地点和到场人物等:

  看到这里,已经有网友表示“太疯狂了”——

  对于玩家来说,相比遵循步骤,以后在游戏中可能真的需要去说服 NPC 或思考并采取行动,才能完成任务。

  还有脑洞大开的网友想到了更加“邪恶”的玩法:想象你杀死了一个 NPC,然后坐车回到城市,看着他们为他举办葬礼……

  那么,这些 AI 究竟是如何自发行动,构建起一个自运转的 AI 互动社会的呢?

  用大模型控制行动决策

  具体来说,斯坦福和谷歌分两步让 AI 们采取行动、与其他 AI 发生交互。

  第一步,是构建各种各样的 AI“人设”,并让他们做出符合设定的日常行动来。

  这里我们以其中一个 AI 角色 John Lin 为例,在 Demo 中可以找到他的设定列表。

  可以看见,他的设定非常详细,包括基础信息(姓名、年龄、位置、时间),注意力设定(视野范围等),个人情况(性格、家庭背景、工作等)。

  以此为参照,这位名叫 John Lin 的 AI 就能形成每天固定的生活习惯,包括早起例行洗漱,然后上班,最后回家睡觉。

  但在他的生活过程中,必定会与其他 AI 沟通、或是遇到新人,于是——

  第二步,就是要让 AI 人设对外界环境和其他人的行动做出反应,产生交互

  于是,这项研究构建了一种赋予 AI 记忆力、检索记忆、感知、反馈和交互等能力的架构。

  从架构图来看,AI 会首先感知周遭环境,并将一定视野(注意力)范围内发生的事件记录下来,加进自己的记忆流(memory stream)中;

  随后,无论是 AI 计划要做的事(plan)、还是对外界发生的事情给出反馈(reflect),都会受到这个记忆流的影响,具体方式是通过从记忆中检索对应的事件,并依靠大模型 ChatGPT 来进行决策

  (当然,无论是计划还是反馈,对应的事件也会加入记忆流中,成为新的记忆)

  最后,这些决策的结果将被转变为具体的方案,促使 AI 思考并做出具体的行动。

  研究提到,之所以采用大模型+记忆架构的方式,是因为大模型虽然已经具备非常好的行动逻辑性,但无论是 GPT-4 还是其他大模型,长期规划和保持清晰的记忆仍然是一种挑战。

  基于此,需要一套记忆系统作为大模型的“参照物”,让它在采取决策的时候有清晰的事件列表可以回溯。

  不过,这项研究也提出了一些关于AI 安全的问题。

  包括如何防止它对社会产生的影响,同时被有心之人用于生成 Deepfake 和“定制版”AI 诈骗等——

  例如,以后和你聊天的 AI 卖茶小妹,可能不仅会记得你说过的每一件事情、每一个生日,甚至还能以此为参照,生成更加“贴心”的回答,让“她”看起来更像一个人……

  One More Thing

  值得一提的是,此前国内也已经有名叫超参数科技的公司做出了类似的 AI NPC 系统 GAEA。

  和斯坦福谷歌这项研究一样,GAEA 同样具备记忆系统,并依靠大语言模型来帮助 NPC 做出行动决策。

  不过,二者促使 AI 产生行动的激励机制有一些差异。相比这项研究依靠大模型来完成行动决策:

  GAEA 中的 AI 还会额外依靠更具体的数值,进一步影响 NPC 的行动决策(饥饿值、心情值等):

  对于这类 AI NPC 技术,你还想到了什么脑洞大开的玩法?

  试玩地址:

  https://reverie.herokuapp.com/arXiv_Demo/#

  论文地址:

  https://arxiv.org/abs/2304.03442

  参考链接:

  [1]https://twitter.com/emollick/status/1645499660402925576

  [2]https://twitter.com/karpathy/status/1645485475996790784