MODEL-AUGMENTED PRIORITIZED EXPERIENCE REPLAY-526互联

发表时间：2022（ICLR 2022）
文章要点：这篇文章想说Q网络通常会存在under- or overestimate，基于TD error的experience replay通常都是无效的，因为TD error是基于Q网络的值计算的。作者提出了model-augmented prioritized experience replay (MaPER)，用model based的辅助任务来帮助计算priority的score，这样就可以避开Q网络估计不准的问题。
具体的，作者修改了网络结构，让critic网络同时预测reward和状态转移，modify the critic network by additionally predicting the reward and the transition with shared weights, which we call Model-augmented Critic Network (MaCN).然后提出MaPER，计算priority的时候同时考虑模型估计误差和TD error。这个方式的好处是前期可能会更多考虑model error的样本，后期会更多考虑TD error的样本，同时learn model这个辅助任务也会帮助Q value的拟合

具体的，网络的损失变成三项

这里R是reward的预测，T是transition的预测，Q就是Q value，注意这里target Q的计算

现在这个r不再是真实的环境reward，而是基于model预测的reward了

有了这个训练之后，另一个问题就是priority的计算，作者直接三项求和

剩下的就是PER的方式计算采样概率以及权重修正

整个算法如下

效果看起来也不错

总结：出发点是非常有道理的，毕竟TD error确实可能就不准。整个计算代价增加的不多，效果看起来也不错，值得借鉴一下。另外补充材料里面把所有环境的图都贴一遍介绍一下，又学到了。
疑问：这几个error引入了三个权重参数，是看成一个multi-task的任务自适应调整的，也没具体给出数值，感觉可以看看这篇引文，A simple general approach to balance task difficulty in multi-task learning。