ChatGPT-526互联

一、ChatGPT基础知识

transformer机制和RLHF

RLHF（Reinforcement Learning from Human Feedback）是基于人类反馈来构建强化学习，使用强化学习的方法和框架，是模型能够接纳人类反馈。不要求构建真实的环境，而是用人工标注的反馈信息去构成环境的奖励机制。这样训练的结果就是系统汇迎合人工的标注和判别标准。ChatGPT正是用了RLHF的机制，做到了自然而流利的对话。

GPT是生成式预训练模型（Generative Pre-Training），总结而言特点是就是无监督的预训练，去完成语言任务。这是OpenAI在2018年提出的模型

GPT的核心思想用一句话解释就是，用统一模型解决语言的全部问题。

OpenAI的GPT模型，则是进行统一的预训练，针对任务做一些微调，虽然针对不同的任务有水平高低，但是能针对所有的语言任务给出回答，是真正的统一的语言大模型。

二、GPT研发阶段

GPT阶段：基于Transformer预训练 + 微调

第一个阶段是利用语言模型进行预训练，第二阶段通过人工微调的模式解决下游任务。

GPT2阶段：舍弃微调，直接做零样本学习

彻底放弃了微调阶段，仅通过大规模多领域的数据预训练，让模型在零样本学习的设置下系统学会解决多任务的问题，而且效果还不错。

GPT3阶段：开启NLP新范式prompt从而实现小样本学习

Prompt 就是给预训练语言模型的一个线索/提示，帮助它可以更好的理解人类的问题。

ChatGPT阶段：RLHF模式接入语言训练，更多的微调

利用人类的标注数据去对GPT3/GPT3.5进行有监督训练。针对模型的多个回答，标注员进行排序标注，通过对排序标注的理解，形成RLHF机制形成内部奖励模型，让回答更契合人类标准。