The Difficulty of Passive Learning in Deep Reinforcement Learning-526互联

发表时间：2021(NeurIPS 2021)
文章要点：这篇文章提出一个tandem learning的实验范式来研究为什么offline RL很难学。对于offline RL来说，一个很严重的问题就是extrapolation error，也就是没见过的state action pair的估计是不准确的。再加上bootstrapping的更新方式，就会加剧误差导致over estimation的问题。
作者基于心理学的实验，提出了一个tandem RL的实验。就是在训练过程中，有一个active agent和一个passive agent。其中active agent和环境交互产生数据，然后active agent和passive agent基于这些数据进行相同的更新，然后来看这两个agent的效果。所以这个实验的区别就是，active agent更新了之后还可以和环境交互得到新的反馈并收集相应的新的data。但是passive agent只能被动的接受这些data拿来更新训练。得到的现象就是passive agent的效果是大大不如active agent的。
作者得到结论有
Bootstrapping并不像之前想象的那样是造成训不好的主要原因（our results indicate an empirically less critical role for bootstrapping than previously hypothesized）。主要的原因还是在于外推误差以及过分的泛化（erroneous extrapolation or over-generalization by a function approximator trained on an inadequate data distribution as the crucial challenge）。
具体的，作者做了这么几个实验。
Tandem：就是之前介绍的有Active and passive agents。并且他们的网络是分别初始化的，也就是说初始参数不同。但是其他都一样，比如网络结构，更新方法等等。
Forked Tandem: 先训练一个agent一段时间，然后active and passive agents都用这个训练的agent作为初始模型。同时，active agent不再训练，只用来和环境交互生成数据。Passive agent根据这些数据进行训练。
作者发现这两个agent大部分的value都不一样，特别是non-argmax actions。而且passive agent的过估计问题随着训练进行越来越严重。

作者就猜测这个过估计的问题可能有三个原因：Bootstrapping，Data Distribution和Function Approximation。

对于Bootstrapping，作者基于double DQN设计了四种更新规则

其中第一种就是直接用passive agent的Q来选动作和更新Q value。第二种就是把Q value替换成active agent的。第三种就是把选动作的Q替换成active agent的。第四种就是两者都换成active agent的。如下图结果所示，效果都不行。

这就说明了并不是bootstrapping的问题造成的offline RL训不上去。
接着对于Data Distribution的影响，作者研究了一些可能因素。exploration parameter \(\epsilon\)，Sticky actions，Replay size，Fixed policy，Fixed replay，On-policy evaluation，Self-generated data。
作者发现增加\(\epsilon\)后，active agent和passive agent之间的差距变小了，这就说明多覆盖一些non-argmax actions的样本也就是次优动作的样本是有利于缓解offline RL的外推误差的，也就缓解了overestimation。
对于Sticky actions，也就是环境的随机性，实验发现没啥影响。

对于Replay size，实验表明增大replay buffer可以缓解问题，但是更多像是减慢performance的下降，并没有解决这个问题。

对于Fixed policy，就是Forked Tandem的设置，产生数据的policy不训练，只生成数据，同时passive agent的初始网络参数和active agent的参数是一样的。但是结果发现，passive agent的performance还是很快下降。这说明问题还是出在learning的过程中，还是由于data distribution和function approximation的原因造成的。
对于Fixed replay，就是说还是基于Forked Tandem，但是data不再更新，就基于现有的数据训练。但是效果还是一样的下降。

对于On-policy evaluation，作者把Q-learning换成了SARSA，也就是说在evaluation的时候不存在off-policy了，完全是on-policy。但是实验仍然效果不行。这说明了也不是off-policy的问题，还是在于data distribution和function approximation的问题。

对于Self-generated data，作者就是说除了active agent外，让passive agent也和环境交互，然后passive agent除了利用active agent收集的数据外，还混入一部分自己交互生成的数据。效果就提升了不少，即使只添加10%的自己的数据，效果也很好了。这说明了，确实是需要自己交互的数据来作为反馈信号，然后修正之前的估值，才是最好的解决办法。
最后作者继续做了Function Approximation的影响。主要研究了Optimization和Function class。
对于Optimization，Adam的表现优于RMSProp。另外更新次数越多，performance越差。这说明效果差并不是由更新不充分造成，也间接说明了还是data distribution的问题。
对于Function class，作者发现网络越宽，效果越好。但是网络越深，效果越差。同时，如果保持网络的前面几层随active agent的参数更新，只有最后几层随passive agent更新，效果会好一些。
总结：很有意思的实验，主要在研究的还是说off-policy到底是不是真的off-policy,加上deep了之后问题出在哪。实验很细致，可以多学习。
疑问：感觉还是没有给出具体的解决办法，可能这个问题就是太难了吧。
On-policy evaluation，作者把Q-learning换成了SARSA，这个能算on-policy吗，毕竟都没和环境交互？