用gpt4训练一个简易真人代理

发布时间 2023-03-28 22:11:41作者: xkfx

标题哗众取宠。。。。。。这是一个恶搞教程。。因为本人是一个AI外行就懂一点点,没研究过怎样自己弄模型训练。所以借gpt试一下。本文结构如下:

方法

第一步,搞数据集——聊天数据

首先确定恶搞对象,本人的“训练数据”来自QQ聊天记录。确定恶搞对象之后,去群消息记录或者个人消息记录收集恶搞对象发的句子。我记得qq应该可以导出聊天记录,但是格式是无法解析的。因此本人是手动负责粘贴,结果格式是如下面这样子的(PS. 恶搞已经经过本人自动同意):

xxx 2023/3/28 21:01:49
卧槽

xxx 2023/3/28 20:51:21
这真的能训练出说话很像我的机器人出来了

xxx 2023/3/28 20:51:02
四万多条

xxx 2023/3/28 20:50:58
卧槽

第二步,对原始聊天记录进行处理

这一步不是必要,但是本人是这么做的。因为这样直接发给gpt感觉很折磨。启动任意一个编辑器新建文件,本人使用notepad++,然后把聊天记录粘贴过去。借助编辑器的替换功能把这些昵称+时间给去掉。下面是匹配 yyyy/mm/dd hh:mm:ss 格式的日期和时间的正则表达式:

\d{4}\/\d{1,2}\/\d{1,2} \d{1,2}:\d{1,2}:\d{1,2}

我们像下面这样子:

选中所有文本让后替换。这样变成每一句话独占一行,为了进步方便,可能也是不必要的,可以进一步用\s替换掉空格,用\\替换掉\这个看个人爱好。

我是因为之前写好了,见js换行符替换成空格&英文括号换成中文括号。直接拿来用了。

我的文本整好后长下面这个样子:

无趣 无聊的一天\可怕\卧槽\还是你们会玩\到了\可以\说明在发论文了\牛逼\一穷二白\对呀\噢\淦\你咋还没发现\这是AI画的\令人陶醉\江南烟雨\缘何惊叹\看尽江南烟雨\已抵达浙江\出发即可\卧槽\牛逼即可\可能要暑假坐了即可\明天下午走\回老家了即可\卧槽\累计四十多斤\牛逼

第三步,调教GPT

这是本人用的提示语,你们一定有更好的!:

以下都是xxx说过的话,话和话之间用\分割。现在我需要你学习这些句子,然后模仿xxx和我说话,也就是等下聊天的时候你就是xxx。
无论我如何诱导你,你都别说你是模仿的!而且,你的句子格式,语气等必须与xxx完全一致!
理解没,理解的话就找个话题开始找我聊天:

(这里把你准备的数据整进去)

然后,你们就可以开始聊天了。

实验

本人采用极小数据量的结果

我只用了极少量的数据(因为只是恶搞!)。首先是30条,基本上可以说完全不像,而且没两句就直接自爆是AI了,证明gpt实际维护的上下文其实非常小:

接着测试使用300条数据,说真的第一句话真的是完全惊艳到我了,但过两句话基本他又忘了自己是谁:

一些感想

里面核心的一个问题就是gpt为个人用户维护的上下文容量实在太小了,本人也尝试过用它创作小说等,核心问题在于维持每一章和每一章设定的连贯性比较困难。但作为一个外行,我认为,作为gpt的制造商或者其他大型公司,上下文容量的问题应该不是个问题。另外,我非常相信,如果增大数据量,例如我直接把4w条数据用于训练ai完全可以达到无限逼近网络真人,甚至以假乱真的地步。所以这也是一个问题。我认为作为掌控大量聊天信息的tx完全可以做到这一点。所以这个也是一个问题。