摘要：经验回放在强化学习中起着提高样本效率的重要作用，它将情景transition存储在回放存储器中以供重复使用。现有的重加权采样、episode情景学习和反向扫描更新等技术对回放记忆中的信息进行处理，以提高经验回放的效率。
本文将 replay memory视为经验 replay memory MDP (RM-MDP)，进一步利用 replay memory中的信息。通过用动态规划解决这个问题，学习到一个保守的值估计，该估计只考虑在 replay memory中观察到的transition。基于这个保守估计开发了值正则化和策略正则化，并与无模型学习算法集成。设计了 replay密度指标来衡量RM-MDP的质量。实证研究定量地发现，性能提升和 memory密度之间存在很强的相关性。该方法将保守估计与经验回放(CEER)相结合，大大提高了样本效率，特别是在存储密度较高的情况下。即使在内存密度较低时，这种保守的估计仍然可以帮助避免自杀行为，从而提高性能。

1 INTRODUCTION

为了加快学习速度，许多研究人员关注如何在更新网络之前更好地处理重播记忆中的信息。

一个研究方向是度量transition的相对重要性，并对其进行不同优先级的采样。衡量重要性的标准包括时间差异(TD)误差，transition的“年龄”、目标值的误差和样本空间的覆盖率。
另一个方向是分析transition的特征。例如，学习应该以向后的方式开始，使稀疏和延迟的奖励传播得更快;最好的情景体验可以被记忆并在学习过程中监督智能体;类似的情节可能会被抓住，并提供更多的信息以供更新

我们可以进一步提高 replay memory的使用吗?在我们的工作中，我们认为回放记忆是一个经验MDP，称为RM-MDP。求解RM-MDP为我们提供了一个估计，该估计同时考虑了 replay memory中所有现有的transition，而不是一次只考虑单个样本或轨迹。这个估计是保守的，因为有些操作可能根本不包含在memory中。我们建议使用RM-MDP的这个保守估计Qˆ来规范原始MDP上Q网络的学习。
我们设计了两个正则化器，一个值正则化器和一个策略正则化器。

值正则化器通过结合Qˆ和Q network的估计来计算目标值。对于策略正则化器，从Qˆ和Q网络派生出玻尔兹曼策略，并使用Kullback-Leibler (KL)散度约束两个策略之间的距离

本文的贡献是四方面的:

将 replay memory视为经验 replay memory MDP (RM-MDP)，并通过求解该经验MDP获得一个保守估计。MDP是非平稳的，可以通过采样有效地更新。

基于保守估计设计了价值和策略正则化器，并将其与经验回放(CEER)相结合来正则化DQN的学习。

引入memory密度作为RM-MDP的质量度量，并根据经验发现性能提升与 memory密度之间存在很强的相关性。这种关系为我们提供了一个明确的指示，表明我们的方法何时会有所帮助。

在环境下的实验表明，该方法大幅提高了样本效率，特别是在memory密度较高的情况下。即使memory密度很低，保守估计也可以帮助避免自杀行为，仍然有利于学习，该方法在奖励稀疏和延迟的环境中是有效的。

Reweighted Experience Replay
Experience Replay with Episodic RL
Experience Replay with Reverse Update
Model-based RL

3 BACKGROUND

Markov Decision Process (MDP).

agent与其环境的交互可以建模为MDP:M = (s, a, r, p，ρ0，γ)。
Q-learning是学习最优策略的经典算法。通过Bellman最优方程学习Q函数Q∗(s,a) = E[r + γ max a' Q∗(s',a')]。

Solving An Empirical MDP.

将 replay memory Mˆ看作经验 replay memory MDP (RM-MDP)， Mˆ= (S, A, R, P, ρˆ0,γ)。

Pˆ是由行为策略β收集的Mˆ中的transition总结出来的empirical transition动态。

设Qˆ= RM-MDP的动作值函数。解决RM-MDP等于解下式:

这是离线/批量强化学习中的一个基本问题。学习的目标是最大化限制在静态数据集上的累积奖励。这将返回一个具有最佳性能的保守策略。

该约束避免了在估计目标值时在数据集之外采取行动所导致的分布偏移。虽然在线学习中的重放记忆通常是一个时变的先进先出队列，但在特定的时间步长，记忆可以被认为是一个包含有限数量transition的静态数据集。因此，求解RM-MDP类似于离线RL设置，解决经验MDP并产生保守估计

4 METHOD

用 replay memory的保守估计来正则化在线强化学习智能体。图中显示了我们方法的概述。

我们首先在 replay memory中使用transition构造RM-MDP。然后通过求解RM-MDP得到一个保守估计。最后，基于估计结果设计了价值正则化器和策略正则化器，以帮助在线学习。
从与环境交互到RMMDP的transition构造RMMDP，它是环境MDP的一部分。绿色圆圈表示经验池中的states。实线表示现有的transition，虚线表示内存中没有的transition。我们从RM-MDP中获得价值和策略估计，这些将被提供来规范化学习。

4.1 BUILDING RM-MDP

在4.1节中，我们通过将重播内存构建为图来描述RM-MDP的构造。
在在线学习过程中， replay memory会随着时间的推移而变化，而离线DRL方法通常需要数万个梯度步骤来提取一个好的策略。为了从RM-MDP中获得快速稳定的估计，我们着重于将 replay memory构造为一个图，并用表格方法求解。

Data structure

为了获得Mˆ，我们将 replay memory构建为有向图G:

在图G中，V表示顶点集合，E表示边集合。V包含状态s和动作值估计Qˆ(s，·)。
ϕ是一个嵌入函数，用于将高维状态映射到低维表示，以便快速查询(图G中的键)。我们将顶点存储在一个字典中，其中ϕ作为一个散列函数，用作键，因此我们可以在O(1)时间内检索状态。
Qˆ(s，·)仅包含行为策略β所采取的行动的值，即a:β(a|s) >0. 对于每个边e∈E，我们存储动作a、奖励r和访问次数N(s,a,s')。它们存储在树结构中并用于蒙特卡洛树搜索(MCTS) 。每条边都由元组(ϕ(s)，a， ϕ(s'))标识，因此我们也可以在O(1)时间内查询一条边的统计信息。我们的图对RM-MDP的结构没有限制。图可以有循环，环境动态可以是随机的。我们用访问次数估计transition(s,a,s')的Pˆ:

如果一个状态或动作从未被尝试过N(s,a) = 0，我们定义pˆ(s'|s,a) = 0对于所有的s'∈s

Update rule

除了图结构外， memory还保持与DQN中使用的replay memory相同的特性。它以固定的memory大小存储最近的体验。由于所有这些统计信息都是标量， memory消耗主要来自顶点V中的状态s。我们通过顶点的数量来计算 memory大小。当一个新的transition(s,a,r,s')出现时，我们首先检查ϕ(s)是否存在于图中。如果没有，我们创建一个新的顶点和边，并初始化Qˆ(s, a) = 0, N(s,a,s') = 1。否则，如果ϕ(s)已经存在，我们将相同的状态合并到一个节点中，并更新访问次数N(s,a,s') = N(s,a,s') + 1。具有相同状态表示的不同轨迹将相交。如果轨迹之间没有交叉，图退化为独立的连通分支，相当于DQN中使用的replay memory。

4.2 SOLVING RM-MDP

在4.2节中，我们将描述RM-MDP的求解。
对于图G，我们有RM-MDP Mˆ的所有元素。我们使用值迭代来更新Q:

在学习过程中，每一个环境交互步骤都会增加一个新的transition到memory中，使得RM-MDP是非平稳的。而不是更新新RM-MDP的所有transition，我们在采样batch的transitions上只执行更新上式

在DQN中，Q函数每四个环境steps更新一个采样批次(Mnih等人，2015)。我们使用相同的批次更新Qˆ。此外，当某一episode结束时，我们按照相反的顺序更新Qˆ。这类似于EBU，但我们对memory而不是Q网络进行向后更新。基于采样的更新和基于片段的更新允许稀疏和延迟的奖励在相关轨迹的所有转移中快速传播。采样不需要额外的计算，与Q网络的更新成本相比，上式的时间消耗较小。

4.3 CEER: REGULARIZING DEEP Q NETWORKS BY RM-MDP

在4.3节中，我们将描述如何设计值正则化器和策略正则化器，并总结整个方法。
利用replay memory的保守估计，设计了值和策略正则器。

Value regularizer

众所周知，由于深度神经网络与Bellman优化方程中的最大化步骤相结合，DQN在一些游戏中存在严重的高估问题。由于RM-MDP中的Qˆ是一个保守估计，并且是以没有函数近似的表格方式估计的，因此它不容易高估。它可以作为计算更好的目标Q值的一个很好的补充。

设q(s,a) = r+ γ max a Q(s',a)是Q网络对状态动作对(s, a)估计的目标Q值，由公式4计算的qˆ(s,a)是RM-MDP估计的值。状态动作对(s, a)的目标值为:

使用样本批D的均方误差，我们的TD损失为:

Policy regularizer

由于学习的目的是从Q网络中推导出一个最优策略，设计了一个策略正则化器来加速策略学习。
设πˆ(s) = softmax τ,a:β(a|s)>0 (Qˆ(s,·))是源自Qˆ在状态s的玻尔兹曼策略，其中τ是softmax温度。动作a受到行为策略β的约束，因此策略πˆ是保守的。同样，策略π(s) = softmax τ,a:β(a|s)>0 (Q(s,·))来自Q网络。通过最小化πˆ和π之间的Kullback-Leibler (KL)散度来正则化策略π:

这个策略正则化器的intuition是，因为策略πˆ源自保守估计，所以它降低了策略π的性能。如果RM-MDP(Mˆ)是环境MDP(M)的局部部分的一个很好的近似，那么πˆ近似于M中的最优策略，从而加速学习。即使近似值不是很好，保守πˆ仍然可以帮助避免一些游戏中的自杀行为，从而提高性能。

结合这两个正则化方法，更新损失函数为: