RLHF-526互联

RLHF不擅长推理、事实等固定答案的优化，擅长自由度更高的生成；RLHF的上限取决于预训练模型本身的能力，对于多项选择这种需要推理、知识和输出格式固定的任务，预训练后的GPT-4[2]能到73.7%，RLHF之后只到了74%，单独看很多任务还有下降。