RLHF不擅长推理、事实等固定答案的优化,擅长自由度更高的生成;RLHF的上限取决于预训练模型本身的能力,对于多项选择这种需要推理、知识和输出格式固定的任务,预训练后的GPT-4[2]能到73.7%,RLHF之后只到了74%,单独看很多任务还有下降。本栏目推荐文章RLHF · PbRL | 选择 near on-policy query,加速 policy learning 收敛速度使用Huggingface创建大语言模型RLHF训练流程的完整教程RLHF · PBRL | B-Pref:生成多样非理性 preference,建立 PBRL benchmark使用 PPO 算法进行 RLHF 的 N 步实现细节RLHF · PBRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmarkRLHF · PBRL | SURF:使用半监督学习,对 labeled segment pair 进行数据增强RLHF · PBRL | RUNE:鼓励 agent 探索 reward model 更不确定的 (s,a)RLHF · PBRL | PEBBLE:通过 human preference 学习 reward model基于LoRA的RLHFRLHF总结RLHFrlhf-openai 模型rlhf reward agent model rlhf lora rlhf 算法 细节rlhf ppo 木筏 算法 模型rlhf labeled segment数据rlhf rewardmodel模型critic rlhf 偏好rlhf-openai 183 anthropic 显卡rlhf llms 20b