RewardModel

为什么RLHF中,PPO需要Critic模型而不是直接使用RewardModel

在强化学习中,PPO(Proximal Policy Optimization)算法是一种基于策略梯度的方法,用于训练强化学习智能体。PPO算法中引入Critic模型的主要目的是为了提供一个价值估计器,用于评估状态或状态动作对的价值,从而辅助策略的更新和优化。 虽然奖励模型(Reward Model ......
RewardModel 模型 Critic RLHF PPO
共1篇  :1/1页 首页上一页1下一页尾页