VPG

从 VPG 到 PPO

这篇博客总结自 Wouter van Heeswijk 在 Medium 的文章:Proximal Policy Optimization (PPO) Explained 策略梯度算法(VPG) 从确定性策略开始 强化学习的目标是学习一个好的决策策略 $\pi$,随着时间的推移最大化奖励。确定性策略 ......
VPG PPO
共1篇  :1/1页 首页上一页1下一页尾页