DRL

Striving for Simplicity and Performance in Off-Policy DRL: Output Normalization and Non-Uniform Sampling

![](https://img2023.cnblogs.com/blog/1428973/202308/1428973-20230812075327194-1111056360.png) **发表时间:**2020(ICML 2020) **文章要点:**这篇文章基于SAC做简单并且有效的改进来提升 ......

关于RL 和DRL中的算法总结

其中: RL 分为基于价值的学习和基于策略的学习 和 AC 架构的 # 价值学习 ## DQN DQN = Q_learing+网络 使用了价值网络 q(..w) ### DQN 训练的过程 **基础的DQN 就是 训练Q网络 更新w 参数** 代码中梯度下降用的是下面这一张 ![](https:/ ......
算法 DRL
共2篇  :1/1页 首页上一页1下一页尾页