吴恩达Prompt课 - 01 介绍

发布时间 2023-04-30 19:11:14作者: 蝈蝈俊

吴恩达和 OpenAI 一起制作了节一个半小时的,面向开发者的关于 《ChatGPT Prompt Engineering》 的课,对自己Prompt提高非常有帮助。

英文课程地址:
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/

我反复学习后,针对每小节的例子和关键部分按照自己理解做了整理。


介绍这一小节中,最值得说的是下面这页:
给出了一个不经过指令调整的例子。

随着大型语言模型(LLM)的发展,LLM 大致可以分为两种类型,即基础LLM和指令微调LLM。

基础LLM

基础LLM是基于文本训练数据,训练出预测下一个单词能力的模型,其通常是在互联网和其他来源的大量数据上训练的。例如,如果你以“从前有一只独角兽”作为提示,基础LLM可能会继续预测“生活在一个与所有独角兽朋友的神奇森林中”。

但是,如果你以“法国的首都是什么”为提示,则基础LLM可能会根据互联网上的文章,将答案预测为“法国最大的城市是什么?法国的人口是多少?”,因为互联网上的文章很可能是有关法国国家的问答题目列表。

指令调整的 LLMs

指令调整的 LLMs 已经被训练来遵循指令。因此,如果你问它,“法国的首都是什么?”,它更有可能输出“法国的首都是巴黎”。

指令调整的 LLMs 的训练通常是从已经训练好的基本 LLMs 开始,该模型已经在大量文本数据上进行了训练。然后,使用输入是指令、输出是其应该返回的结果的数据集来对其进行微调,要求它遵循这些指令。然后通常使用一种称为 RLHF(reinforcement learning from human feedback,人类反馈强化学习)的技术进行进一步改进,使系统更能够有帮助地遵循指令。