Striving for Simplicity and Performance in Off-Policy DRL: Output Normalization and Non-Uniform Sampling-526互联

发表时间：2020（ICML 2020）
文章要点：这篇文章基于SAC做简单并且有效的改进来提升效果。作者首先认为SAC里面的entropy是为了解决action saturation due to the bounded nature of the action spaces，这个意思就是说动作空间假如约束到[0-1]，动作通常会在0和1两个端点处，而加了entropy可以很好缓解这个问题。然后作者提出了一个streamlined algorithm with a simple normalization scheme or with inverted gradients，可以在没有entropy的情况下达到SAC一样的效果。接着又提出了一个新的experience replay方法来重点采recent的样本(ERE)，整个算法叫做Streamlined Off Policy with Emphasizing Recent Experience。
对于Bounded Action Spaces，通常的做法是用clip

或者是用tanh作为最后一层，然后再放缩

DDPG和TD3用的前者，SAC用的后者。作者想说，这两种方式都会有可能造成动作太接近两个端点值，并且由于tanh，如果网络输出的μ一开始比较大的话，其实很难再回到一个合理的范围内

作者把这个问题叫做squashing exploration problem。作者提出了一个简单的方法来缓解这个问题，就是对输出的均值\(\mu\)先做归一化

另一个改进是Inverting Gradients，就是不去归一化均值，而是在计算梯度的时候根据均值的量级来调整梯度大小

最后一个改进就是Emphasizing Recent Experience，大致思路就是在采batch的时候，第一个batch从所有样本里采，后面的batch的采样范围逐渐缩小到最近的样本

看起来效果都很一般

总结：拼凑的痕迹挺重的，而且感觉就没有啥提升，不知道为啥就能中。
疑问：ERE里面假设会采样很多个mini-batch，但是同时不是每个step就采一个batch更新吗，从伪代码里看的话应该是每个episode更新一下，而不是每个step更新。