Off-Policy Deep Reinforcement Learning without Exploration-526互联

发表时间：2019（ICML 2019）
文章要点：这篇文章想说在offline RL的setting下，由于外推误差（extrapolation errors）的原因，标准的off-policy算法比如DQN，DDPG之类的，如果数据的分布和当前policy的分布差距很大的话，那就很难从data里学到好的policy。然后文章提出了batch-constrained reinforcement learning来约束当前的policy和收集data的policy的距离，从而更有效的学习。
extrapolation error指的是对于没有见过的状态动作对，估计值不准确。导致这个问题的原因在于the mismatch between the dataset and true state-action visitation of the current policy.这个问题可能有以下几个原因：
(1) Absent Data.大概意思就是如果没见过某个state-action pair，那这个地方的估计就可能任意的差。

(2) Model Bias.大概意思就是说如果data不够多的时候，因为在算bellman估计的时候，都是用采样去做的，但是采样得到的transition dynamic和真实的MDP的dynamic是有偏差的。

(3) Training Mismatch. 即使data足够多，但是当前policy和data对应的分布差距很大，那么采样得到的样本和当前的policy还是有很大的mismatch。这个更新也会有问题。

作者提出Batch-Constrained deep Q-learning (BCQ)来解决这个问题，大概思路就是用state-conditioned generative model to produce only previously seen actions。具体需要满足如下目标

作者定义了网络，一个生成模型G，一个扰动模型\(\xi\),再加两个Q网络。生成模型用来生成data里出现过的动作，扰动模型用来给生成的动作加一个小的扰动，用来增加多样性，然后两个Q就是用来做Double Q-learning的。训练的大概思路就是先用生成模型和扰动模型生成很多个action，然后从这些action里面找最大的Q来做更新用的target Q。然后用Double Q-learning来更新Q网络。
算法伪代码如下图：

总结：感觉这个思路的话，就是我的policy可能不会很好，因为我限制了训练的transition和buffer里的差得不会太远。同时这个policy也不会很差，因为extrapolation error的问题会被缓解。
疑问：这个用VAE来训练生成模型，这个地方会不会依然生成buffer里没有的动作？这个地方的原理不是很懂。
给动作加扰动那里，连续动作DDPG倒是好加，DQN咋加的？