吴恩达Prompt课 - 01 介绍-526互联

吴恩达和 OpenAI 一起制作了节一个半小时的，面向开发者的关于《ChatGPT Prompt Engineering》的课，对自己Prompt提高非常有帮助。

英文课程地址：
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/

我反复学习后，针对每小节的例子和关键部分按照自己理解做了整理。

介绍这一小节中，最值得说的是下面这页：
给出了一个不经过指令调整的例子。

随着大型语言模型（LLM）的发展，LLM 大致可以分为两种类型，即基础LLM和指令微调LLM。

基础LLM

基础LLM是基于文本训练数据，训练出预测下一个单词能力的模型，其通常是在互联网和其他来源的大量数据上训练的。例如，如果你以“从前有一只独角兽”作为提示，基础LLM可能会继续预测“生活在一个与所有独角兽朋友的神奇森林中”。

但是，如果你以“法国的首都是什么”为提示，则基础LLM可能会根据互联网上的文章，将答案预测为“法国最大的城市是什么？法国的人口是多少？”，因为互联网上的文章很可能是有关法国国家的问答题目列表。

指令调整的 LLMs

指令调整的 LLMs 已经被训练来遵循指令。因此，如果你问它，“法国的首都是什么？”，它更有可能输出“法国的首都是巴黎”。

指令调整的 LLMs 的训练通常是从已经训练好的基本 LLMs 开始，该模型已经在大量文本数据上进行了训练。然后，使用输入是指令、输出是其应该返回的结果的数据集来对其进行微调，要求它遵循这些指令。然后通常使用一种称为 RLHF（reinforcement learning from human feedback，人类反馈强化学习）的技术进行进一步改进，使系统更能够有帮助地遵循指令。