off-line RL | CQL:魔改 Bellman error 更新,得到 Q 函数 lower-bound

发布时间 2023-11-07 15:27:24作者: MoonOut



review 总结

open review: https://proceedings.neurips.cc/paper_files/paper/2020/file/0d2b2061826a5df3221116a5085a6052-Review.html

  • contribution:用于 off-line RL 的保守 Q 学习(Conservative Q-Learning,CQL)。

    • 一种新的 Q function 更新规则,对 Q 分布进行额外的正则化:通过在适当选择的 state-action pair 上的辅助分布下,在通常的 Bellman update 中添加正则项,用来最小化 OOD action 的 Q value,从而减少对 OOD action 的 Q value 高估。
    • 作者表明,这个更新规则能够渐进得到,从精确 policy evaluation 中获得的 policy value 的下限。
    • 在学习算法中使用这种保守的 Q function,从而得到 Conservative Q-Learning 算法(CQL)。作者表明,以这种方式得出的策略更新是保守的,因为在每次迭代中,策略都会针对 value 的 lower-bound 进行优化。
    • CQL 算法有几个不同的变体,它们在 off-line control 的 benchmark 中性能很好,并且,对于 off-line RL 中 behavior policy 与实际 policy 的 action distribution 不一致,所导致的 Q 分布的误差更稳健。
    • 公式 1:在估计特定策略的 Q function 时,添加一个 penalty,会产生对 policy value 的低估,但这种低估过于保守。
    • 公式 2:在估计 Q function 时,在 penalty 中减去基准策略(行为策略 behavior policy)的 value。这也被证明会低估 policy value。作者从理论与实验上验证了这个 idea。
  • strength:

    • 简单而新颖的方法,概念上聪明的想法。通过直接最小化 off-policy Q value,而不是估计 Q function 中的行为密度或不确定性,来对抗 off-line Q learning 中的高估。很聪明,因为与大多数现有方法相反,它不需要任何形式的状态访问密度。
    • 具体的,该方法将 value 取多少 lower-bound,取决于经验行为分布 \(\pi_\beta\),其中很少被评估的 actions 会导致更大的 lower-bound。(?)
    • 之前没有针对 off-line RL 的这种研究,因为将 Q function 正则化,对 OOD action 表现不好。(?)
  • weaknesses:

    • 虽然本文的理论动机集中在构建下界,但没有讨论下界是多少 以及这是否合理(?奇怪的英文句子)。主要弱点在于 alpha,它以 Q 值的平方损失相对于 Q 值的线性差进行交互(?)。
    • 在实证(实验)中比较平均值,而非提供适当统计数据(比如方差这种统计量),是有缺陷的。
    • 公式 1 和 2 必然会收敛到一个 fixed point(忽略不属于 D 的动作)是显而易见的吗?能否解释一下,针对 BC (behavior cloning 行为克隆 模仿学习)策略进行正则化的方法,为何会比 BC 策略表现更差?在我看来,总是可以选择足够强大的正则化,至少让它跟 BC 策略一样好,为什么表 1 和 2 中的情况不是这样呢?

0 abstract

Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.

摘要:

  • 在强化学习(RL),有效利用事先收集的大型数据集,是大规模实际应用面临的一个关键挑战。离线强化学习(off-line RL)算法,有望从以前收集的静态数据集中学习有效的策略,而无需进一步的交互。
  • 然而,在实践中, off-line RL 是一项重大挑战。因为数据集与所学策略之间的 state-action 联合分布的偏移,会导致对 value 的高估,因此,标准的 off-policy RL 魔改成的 off-line RL 可能会失败,尤其是在复杂和多模式数据分布上。
  • 在本文中,我们提出了保守 Q-learning (CQL),旨在通过学习一个保守的 Q 函数来解决这些局限性,即,在该 Q 函数下,policy value 的期望值低于其真实值。
  • 我们从理论上证明,CQL 能生成当前 policy value 的下限,并基于该下限学习新策略,从而保证理论上的改进。
  • 在实践中,CQL 通过一个简单的 Q 值正则化器(regularizer),增强了标准的 Bellman error 优化目标,该正则化器可以在现有的 Deep Q Learning 和 Actor-Critic 的基础上直接实现。
  • 在离散和连续控制域上,我们的研究表明,CQL 的性能大大优于现有的 off-line RL 方法,其学习策略的最终收益往往能提高 2-5 倍,尤其对于复杂和多模态的数据分布。

1 intro

  • Offline RL / batch RL:[11, 15, 30, 3, 27, 54, 34]
  • 在 off-line 环境中,直接使用现有的 value-based 的 off-policy RL 算法,通常性能不佳,这是由于从 OOD action 中 bootstrap 的问题 [30, 15] 和过拟合 [13, 30, 3],通常表现为 value function 的错误的乐观估计。
  • 如果我们能学习一个保守的 value function 估计值,为真实值提供一个下限,那么就能解决高估问题。
    • 事实上,由于 policy evaluation 和 policy improvement 通常只使用 value function,我们可以学习一个不那么保守的下限 Q 函数,这样,策略下的 Q 函数期望值是下限,而非使用点式下限。(见后文,从公式 1 到公式 2)
  • main idea:在适当选择的 (state,action) 分布下,最小化 Q 值(公式 1),然后通过在数据分布上加入最大化项,进一步收紧这一约束(公式 2)。
  • 算法框架 CQL:通过在训练过程中对 Q 值进行正则化,学习保守的 value function 下限估计值。
    • 理论分析:只有在策略下的 Q 函数期望值,才会是真实策略值的下限,从而避免了逐点的 Q 函数下限可能产生的额外低估,这在探索文献 [46, 26] 中,通常是在相反的背景下进行探讨的。
    • 通过实验,证明了我们的方法对 Q 函数估计误差的稳健性。
  • 如何实现 CQL:将这些保守估计,用于策略评估和离线 RL。
    • 简单修改:只需在 Q 函数更新中添加 CQL 正则化项,就能在许多标准 on-line RL 算法 [19, 8] 的基础上,用不到 20 行代码实现 CQL。
  • 实验:适用于具有复杂数据集组合的领域(已知先前的方法通常在这些领域表现不佳)[12](可能是 D4RL 的 random medium expert 之类)和具有高维视觉输入的领域 [5, 3](其实应该就是 Atari 的 state - 游戏屏幕截图吧)。
    • 在许多 benchmark 上,CQL 的表现比之前的方法高出 2-5 倍之多,而且还是在从人机交互中收集的大量现实数据集上,唯一的表现优于简单 behavior cloning 的方法。

2 preliminaries

  • 符号定义:
    • \(\pi_{\beta}(a|s)\) 代表 behavior policy。\(d^{\pi_\beta}(s)\)\(\pi_{\beta}(a|s)\) 的 discounted marginal state-distribution。离线数据集 D,相当于在 \(d^{\pi_\beta}(s)\pi_\beta(a|s)\) (state-action 联合分布)里采样得到。
    • \(\hat \pi_\beta(a|s)\) 代表 empirical behavior policy,\(\hat \pi_\beta(a|s)={\sum_{(s,a)}1[s=s,a=a]}/{\sum_s1[s=s]}\) ,就是在历史数据的 state s 下有多少次选择了 action a。
    • 假设 reward 有 bound: |r(s, a)| ≤ R_max。
  • 回顾:
    • 回顾 Q-learning method:迭代计算 Q function,\(B^*Q(s,a)=r(s,a)+\gamma E[\max Q(s',a')]\)
    • 回顾 actor-critic:要训一个 actor policy,用来做 \(\pi(a|s)=\arg\max_aE[Q(s,a)]\)
    • 由于 dataset D 不会包含所有的 transition tuple (s,a,s'),所以 policy evaluation 步骤事实上用的是 empirical Bellman operator,称为 \(\hat B^\pi\),它只备份(backs up)单个样本。
    • (没有听懂,应该是只对单个 (s,a,s') 做 Bellman 迭代吧)
  • off-line RL:给定数据集 \(D=\{(s,a,r,s')\}\),是用 behavior policy \(\pi_{\beta}(a|s)\) 收集的。然后在这个数据集上做 policy evaluation + policy improvement。(evaluation 是在更新 Q function,新 Q 接近 r + γ × 老 Q,用 min 最小化平方误差来写)
  • 问题:这样直接做 off-line RL,会出现 action distribution shift(动作分布偏移)的现象。
    • 大概就是,最后训出来的 policy 的 action distribution 跟采样策略 \(\pi_\beta(a|s)\) 不太一样(?)
    • 由于 policy 的训练目标是最大化 Q 值,因此,可能会倾向于 Q 值被高估的 out-of-distribution 行为。
    • 经典 off-line RL 方法 [30, 27, 59, 54],通过限制所学策略 [34] 远离 OOD action,来缓解这一问题。
    • 需要注意的是,在训练 off-line RL 的 Q function 时,不会受到 state distribution shift(状态分布偏移)的影响,因为 Bellman backup 不会在 OOD 的状态上更新 Q 函数,但是在测试时,可能会遇到新 state,受影响。

3 CQL framework

3.1 Conservative Off-Policy Evaluation

CQL 最初的 idea:

  • 我们只有行为策略 \(π_β(a|s)\) 生成的数据集 D,但是要估算目标策略 π 的 value function \(V^π(s)\)
  • 因为希望防止 policy value 的高估,因此在学习标准 Bellman error 目标的同时,还通过最小化 Q 值,来学习一个保守的 Q 函数 lower-bound。
  • 使用一种惩罚方式:最小化【特定的】state-action pair distribution µ(s,a) 下的 Q 函数期望值。
    • 标准 Q 函数训练并不去管 unobserved state 下的 Q 函数值,却去更新 unobserved action 下的 Q 函数值,因此,我们限制 µ 与数据集中的状态边际(state-marginal)相匹配,\(\mu(s,a) = d^{π^β}(s)\mu(a|s)\)。【没有听懂】
  • 这样,就得到了训练 Q 函数的迭代更新,它是权衡因子(tradeoff factor)α ≥ 0 的函数:

【3.1 节的公式 1:加了一个惩罚项,最小化 α · E_{μ 分布} Q(s,a) 】

定理 3.1 的解释:

  • 证明:这样得到的 Q function,是所有 s-a dataset 分布的下界。
  • 这个下界可以更紧一些。如果只要求 \(π(a|s)\) 下, \(\hat Q^π\) 的期望值低于 \(V_π\),我们可以通过在数据分布 \(π_β(a|s)\)下,引入一个额外的 Q 值最大化项来改进约束,从而实现迭代更新(等式 1 中红色部分的变化):

【3.1 节的公式 2:拉低了 μ 分布的 s-a,但拉高了 \(s\sim D,a\sim\hat\pi_\beta(a|s)\) 的 Q value,pi hat 是 empirical behavior policy】

定理 3.2 的解释:

  • 虽然得到的 \(\hat Q_π\) 可能不是对每个点都能有下限,但当 \(\mu(a|s)=π(a|s)\) 时,有数学期望 \(E_{π(a|s)} [\hat Q^π(s,a)]≤V^π (s)\)
  • 因为公式 2 最大化了行为策略(behavior policy)\(\hat\pi_\beta(a|s)\) 的 Q 值,因此可能会高估 \(\hat\pi_\beta(a|s)\) 下的 action,所以说 Q hat 不是 point-wise lower-bound。
  • 在 Appendix D.2 中证明,只有最大化 \(\hat\pi_\beta(a|s)\) 时,才能取得数学期望的 lower bound(?)

理论分析:(有点复杂,没看懂…)

  • 公式 1 2 使用的经验贝尔曼算子 \(\hat B^π\) ,而非实际的贝尔曼算子 \(B^π\)
  • CQL 是 lower-bound 的证明,在 Appendix C。

定理 3.1:

  • point-wise lower bound。
  • 对于公式 1 中希望最小化的分布 μ(a|s),只要满足 \(\mathrm{supp}~\mu\subset\mathrm{supp}~\hatπ\) (不知道什么意思…),就有≥ 1-δ 的概率满足,求得的 \(\hat Q^\pi(s,a)\le Q^\pi(s,a)\) - 一个含 α 的东西 + 一串东西。
  • 只要 α 足够大,就有 \(\hat Q^\pi(s,a)\le Q^\pi(s,a)\),对任意 s ∈ D、任意 a。
  • \(\hat B^π=B^π\) 时,任何 α>0 都能保证, \(\hat Q^\pi(s,a)\le Q^\pi(s,a)\),对任意 s ∈ D、任意 a。

定理 3.2:

  • 数学期望 lower bound 。
  • \(\mu=\pi\) 时(\(\pi\) 是当前训出来的策略(?)),通过策略 \(\pi\) 下 的 Q function 得到的 value function \(\hat V^\pi(s)=E_{\pi(a|s)}[\hat Q^\pi(s,a)]\),是真实 value function \(V^π (s)=E_{π(a|s)}[Q^π(s,a)]\) 的 lower bound。
  • 因为(一大串公式),对任意 s ∈ D,有 V hat ≤ V - 一个含 α 的东西 + 一串东西。
  • 因此,若 α > 一串东西,对任意 s ∈ D,都有 V hat ≤ V 的概率 ≥ 1-δ。若 \(\hat B^π=B^π\) ,任何 α>0 都能保证 V hat ≤ V 。

讨论:

  • 在定理 3.1 3.2 的证明中,假设 Q function 是精确计算的,没有使用 function approximation(如 NN)。
    • 不过,定理 3.2 可以 generalize 到 linear function approximator 和基于 neural tangent kernel (NTK) 的 NN 拟合器,见 Appendix D.1 的定理 D.1 D.2。
  • 总之,证明了 Q ← min α E_μ Q(s,a) + 1/2 [Q(s,a) - BQ(s,a)]² 是 Q function 的下界,Q ← min α[E_μ Q(s,a) - E_\(\hatπ_β\) Q(s,a)] + 1/2 [Q(s,a)-BQ(s,a)]² 是更紧的下界。
    • 随着可用数据变多,|D(s,a)| 增加,保证下界所需的 α 值变小;在无限数据中,只需极小的 α 便可维持下界。

3.2 Conservative Q-Learning for Offline RL

背景:

  • 在 3.1 节的公式 2 中令 μ = π,做 policy evaluation - policy improvement 循环,可以得到 Q function 下限,但这样计算成本太高(?)
  • 由于 policy iteration 得到的 \(\hat\pi_k\) 通常来自于 Q function,因此可以改进 μ 的选择,进行一些近似,得到一个在线(on-line)算法(?)

定义了 CQL(R) ,是一类优化问题,R(μ) 是正则化项。

【3.2 节的公式 3: \(\min_Q\max_\mu \alpha(E_\mu Q-E_{\hat\pi_\beta} Q)+1/2[Q-BQ]^2+R(\mu)\),变成了 min max 形式,还加了一个 μ 的正则化项】

CQL 的变体:

  • 如果令 R(μ) = -DKL(µ, ρ),即策略的 action 分布与一个先验 action 分布的 KL 散度。
  • 1 - 若 ρ = Uniform(a),那么将会变成公式 4 的形式,称为 CQL(H)。H 是信息熵的意思。
  • 2 - 若 ρ = \(\hat\pi_{k-1}\) 即上次得到的策略,那么,等式 4 的第一项会变成 \(\hat\pi_{k-1}(a|s)\) 的 actions 的 Q values 的指数加权平均值。
    • 根据经验,这种变体在高维行动空间(如表 2)中更稳定,因为在高维行动空间中,由于方差较大,通过抽样估计 \(\log\sum_a\exp\) 具有挑战性。(没有听懂)
  • 3 - 在附录 A 中,讨论 CQL 的另一个变体,并将其与分布稳健优化(distributionally robust optimization)[43] 联系起来。

CQL 的理论分析:

  • 去证明 CQL 确实是保守的(conservative),每个 policy iterate 都根据 value 的 lower bound 来优化得到。
    • 有 sampling error 样本误差的情况见 Appendix C,这里我们就不考虑了。

定理 3.3:

  • 证明:前面提到的 CQL(H),学习了实际 Q function 的 lower bound。
  • \(π_{\hat Q^k}(a|s)∝\exp \hat Q^k(s,a)\) (这是得到 policy 的方式),假设 \(D_{TV}(\hat π^{k+1}, π_{\hat Q^k})\le\epsilon\) (大概就是策略变化缓慢的意思),则有 \(\hat Q^k\) 下的 policy value 是真实 value 的 lower bound,\(\hat V^{k+1}(s) ≤ V^{k+1}(s)\)
  • —— 只要满足,LHS ≥ RHS。
  • LHS:是在 CQL 更新的迭代 k+1 中, Vˆk+1 值的保守程度,如果学习到的策略正好等于 \(\hat Q^k\) 的 softmax 策略(正比于 exp)(按理来说是这样的),即 \(\hat π_{k+1}=π_{\hat Q^k}\) 时。
  • RHS:然而,实际策略 \(\hat π_{k+1}\) 可能不同,RHS 是由于这种差异而可能高估的最大值。
  • 为了得到下限,我们要求低估 value function 的量更大,可以通过较小的 ε(即策略变化缓慢)得到。
  • (基本没看懂…)

CQL 的 Q function update 是 gap-expanding 的:

  • 是说,1. ID(分布内)的 Q value、2. 错误乐观估计的 OOD Q value,它们之间的 difference,比真实 Q function 的 difference 更高。
  • 这意味着,策略 \(π_k(a|s)∝\exp\hat Q^k(s,a)\) 被约束的更接近数据集 D 的经验策略分布 \(\hat π_β(a|s)\),隐式地防止了 OOD 的 distribution shift。

定理 3.4:(CQL is gap-expanding)

  • 在任何步迭代 k 中,CQL 都能扩大行为策略 \(π_β(a|s)\)\(\mu_k\) 下预期 Q 值的差距。
  • 因此,对于足够大的 \(α_k\),对于任意 s ∈ D,我们有 \(E_{π_β(a|s)}[\hat Q^k(s,a)]−E_{\mu_k(a|s)}[\hat Q^k(s,a)]> E_{π_β(a|s)}[Q^k(s,a)]−E_{\mu_k(a|s)}[Q^k(s,a)]\)

(Appendix B 通过实验证明,先前的 off-line RL 方法,如果没有明确限制或正则化 Q 函数,可能不具备对于 OOD Q 值高估的鲁棒性)

总结:

  • 证明了 CQL RL 算法可以学习到下限 Q 值,在足够大的 α 下。这意味着,最终策略的 value function 至少能有我们计算的 Q hat 那么大,我们计算的 Q hat 是一个下限。
  • 证明了 Q function 是 gap-expanding 的,这意味着它只能高估 ID action 和 OOD action 之间的 gap,从而防止 OOD 行动。(所谓的拉高 ID action,拉低 OOD action)

3.3 Safe Policy Improvement Guarantees

本 subsection 总结:

  • CQL 优化的是一个定义明确的、包含惩罚项的(penalized)经验 RL 目标函数(empirical RL objective),并针对 behavior policy(行为策略),进行了高置信度(概率 ≥ 1-γ)的安全策略改进。
  • 改进的程度会受到较高 sampling error(采样误差)的负面影响,而 sampling error 会随着观察样本的增多(|D| 变大)而减小。

定理 3.5:

  • 定义:任意策略的 empirical return(经验收益)\(J(π, \hat M)\),为 empirical MDP(经验 MDP) \(\hat M\) 的 discounted return(应该是 discounted reward 求和吧)。其中,empirical MDP 由数据集 D 得出,\(\hat M=\{(s, a, r, s')∈D\}\)
  • \(\hat Q^\pi\) 是公式 2 的不动点(fixed point)(即已经求到了策略 π 的 value function),则 \(π^*(a|s):=\arg\max_π E_{s\simρ(s)} [\hat V^π(s)]\) (该 value function 导出的 policy)可以等价表示为,\(π^*(a|s)←\arg\max_πJ(π,\hat M)−α\frac{1}{1−γ} E_{s∼d^π_{\hat M}(s)}[D_{CQL}(π,\hat π_β)(s)]\) ,其中 D_CQL 是一个 penalty, \(D_{CQL}(π, π_β)(s):=\sum_a π(a|s)\cdot (\frac{π(a|s)}{π_β(a|s)}−1)\)
  • 证明见 Appendix D.4。
  • 直观地说,定理 3.5 表明,CQL 优化了经验 MDP \(\hat M\) 中的策略收益,同时还通过 D_CQL 惩罚项,确保学习到的策略 π 与行为策略 \(\hat π_β\) 不会相差太大。
    • 这种惩罚是通过 CQL 的 gap-expanding(定理 3.4)特性,来隐式引入的。

定理 3.6:

  • 在定理 3.5 和 CPO [1] 分析的基础上,证明 CQL 提供了行为策略 \(\hat π_β\) 上的 ζ-safe policy improvement。
  • \(π^*(a|s)\) 是定理 3.5 得到的策略。那么,在实际 MDP M 中,策略 \(π^*(a|s)\) 是行为策略 \(\hat π_β\) 上的 ζ-safe policy improvement,即,满足 \(J(π^*,M)\ge J(\hat π_β, M)-\zeta\) 的概率为 1 - δ, ζ 由下式给出:
  • 【没编号的公式,一大串,很吓人】
  • ζ 的表达式由两项组成:
    • 第一项表示,由于 M hat 和 M 之间的不匹配(也称为抽样误差 sampling error),而导致的 M 中策略性能的下降。第二项表示,由于经验 MDP M hat 中的 CQL,而导致的策略性能的提高。
    • 针对 CQL Q 函数优化 π 后,得到的策略 π* 比行为策略 \(\hat π_β\) 好,如果我们适当选择 α 值;当采样误差较小,也就是 |D(s)| 较大时,较小的 α 值就足以保证策略性能的改进。

4 如何实现 CQL

算法伪代码:

  • 看看如何在 actor-critic 和 Q-learning 上使用 CQL。
  • 伪代码见 Algorithm 1 ,与传统 actor-critic 和 Q-learning 的区别,用红色标出了。
  • (第 3 步)使用 CQL 框架中的 CQL(H) 或一般的 CQL(R),替代希望最小化的 Bellman error,作为训练 Q 函数 \(Q_θ\) 的梯度下降目标(θ 是神经网络参数)。
    • 不像之前的 off-line RL 方法 [30, 59, 54, 34] ,CQL 不需要策略约束(policy constraint),因此不需要拟合一个额外的 behavior policy estimator(行为策略估计器)。
  • (第 4 步)对于 actor-critic 框架,还需训练一个策略 πφ。

Implementation details:

  • 声称,对于连续控制,只需在 SAC(soft actor-critic)[19] 上增加 20 行代码;对离散控制,则是 QR-DQN [8] 的 20 行代码。
  • 对 gym 和离散控制,tradeoff factor α 固定为附录 F 中所述的恒定值;对于其他领域,α 通过拉格朗日双梯度下降法(Lagrangian dual gradient descent)自动调整。
  • 我们使用 SAC 的默认超参数,但策略的学习率是从 {3e-5、1e-4、3e-4} 中选择的,并且小于或等于 Q 函数(?),这是由定理 3.3 决定的。
  • 详细内容见 Appendix F。

本章 review 了 offline RL 和 off-policy evaluation 的工作,更多内容详见 Appendix E。

Off-policy evaluation (OPE):

  • 早期工作 [51, 49, 52] 先收集 Monte-Carlo returns,再在 Monte-Carlo returns 中使用 per-action importance sampling,来获得 OPE return 的估计。
  • 近期工作 [36, 17, 40, 60] 通过某种动态规划(dynamic programming)[34],直接估计状态分布的 importance ratios(重要性比率),使用 marginalized importance sampling(边际重要性采样)。这通常比 per-action importance sampling 方差更小,但期望值会有 bias。
    • 由于使用 DP,因此它们可能会受到 OOD 动作的影响 [34, 17, 20, 40]。
    • 相比之下,CQL 中的 regularizer 因其 gap-expanding 行为,而明确解决了 OOD 行为的影响,并获得了保守的 value 估计。

Offline RL:

  • 先前研究试图解决 learned policy 的 action distribution 与 behavior policy 偏离的问题,去限制 learned policy 与 behavior policy 接近,例如通过 KL-divergence [27, 59, 48, 54]、Wasserstein 距离 [59] 或 MMD [30] 来衡量。然后,在贝尔曼策略更新(Bellman backup)中,只使用从该被限制的策略中采样的行动,或使用值惩罚(value penalty)。
    • 对 unobserved actions,SPIBB [33, 41] 使用 Q-learning 算法中的 behavior policy 进行 bootstrap。
  • 大多数这种方法,都需要单独估计一个 behavior policy 模型 πβ(a|s) [15, 30, 59, 27, 54, 55],因此,受限于准确估计未知 behavior policy 的能力 [42];如果从多个来源收集数据 [34],去估计 behavior policy 可能尤为复杂。
    • 相比之下,CQL 无需估计 behavior policy。
  • 先前研究已经探索了某些形式的 Q-function penalties [23, 58],但仅限于 standard online RL setting with demonstrations。
    • Luo 等人 [38] 通过在 state-space 上强制执行一个 linear extrapolation property,学习了一个 conservatively-extrapolated value function,然后,学习动力学模型(dynamics model),从而获得 goal-reaching tasks 的策略。
    • Kakade 和 Langford [28] 提出了 CPI 算法,在 on-line RL 中保守地改进策略。
  • 其他先前的研究,会估计某种不确定性(uncertainty),以确定 Q 值预测的可信度 [30, 3, 34],通常使用 on-line RL exploration 中的不确定性估计技术 [47, 26, 46, 7]。
    • 由于 off-line RL [34] 对不确定性估计的保真度(fidelity)要求很高,因此,这些方法在 off-line RL [15, 30, 34] 中一般表现不佳。
  • Robust MDP [24, 50, 56, 44] 一直是 off-line RL 中流行的 theoretical abstraction,但在 policy improvement 上往往非常保守。
    • 由于 CQL 不会低估所有 state-action tuple 的 Q value,因此 CQL 不会那么保守。
  • 关于 high confidence policy improvement 的研究 [57],为策略改进提供了安全保证,但往往也比较保守。
    • 定理 3.4 所示的 CQL backup 的 gap-expanding 特性,与 gap-increasing Bellman backup operators [6, 37] 如何在 on-line RL 中对 estimation error 更 robust 有关。

理论结果:

  • 我们的理论结果(定理 3.5、3.6)与之前 safe policy improvement 的工作有关 [33, 50]。
  • 与 Laroche 等人的定理 1 和 2 [33] 比较,发现相似的 quadratic dependence on the horizon,和一个 inverse square-root dependence on the counts。
  • 我们的 bound 比 Petrik 等人[50]的 ∞-norm(无穷范数)bound 有所改进。

6 experiment

baselines:

  • 使用 policy constraint(限制与 behavior policy 离得不太远)的先前 off-line RL 方法:BEAR [30] 和 BRAC [59]。
  • SAC [19],一个 off-policy actor-critic method 的 off-line RL 版本。
  • behavioral cloning (BC)。

实验环境与结果:

  • Gym domains:
    • off-line datasets 分为 “-random” “-expert” “-medium”。当只使用单一种类的 dataset 时,CQL 只比其他方法厉害一点点(baselines 使用了 [12] 的 performance 报告);但当多个 datasets 一起使用时,甚至能 outperform 一到两倍。
  • Adroit tasks:
    • Adroit [53] 是 D4RL [12] 中最复杂的任务,使用有限的 human demonstrations,控制一个 24-DoF 的机器手。
    • 任务过于复杂,先前的 off-line RL 方法都会挂掉,behavior cloning(BC)表现最好。
    • CQL outperform 了 BC,是其他 off-line RL 方法的 2-9 倍。
  • CQL(ρ) 其中 \(\rho=\hat\pi^{k-1}\) 在一部分任务上 outperform 了 CQL(H),两个 CQL 方法的方差都比 baselines 更好。
  • AntMaze:
    • MuJoco Ant robot,D4RL 中只提供 suboptimal 数据。
    • 先前方法只能应对最简单的 U-maze,但 CQL 可以走一些更复杂的。
  • Kitchen tasks:
    • Franka kitchen domain [18] from D4RL [14],控制一个 9-DoF robot,按顺序操作各种物体(microwave, kettle, ...),达到指定的终态;对于每个终态要求的物体,只有一个 episode 结束时的 spare 0 1 reward,代表该物体是否达到终态(?)
    • 包含 1. 从 dataset 里组合 trajectory 片段,2. 精确的 long-horizon 控制,3. 处理人类的远程指令。
    • CQL outperforms 所有 baseline,成功率高达 40+%。
  • Offline RL on Atari games:
    • offline, image-based Atari games [5]。
    • 与 REM [3] 和 QRDQN [8] 在五个 Atari tasks (Pong, Breakout, Qbert, Seaquest and Asterix) 上比较,(因为这些实验已经被 [3] 做过了)
    • 使用了 Agarwal et al. [3] 的 evaluation protocol,包含两种数据:(1) on-line DQN agent 观察到的前 20% 样本组成(大概是训练过程的前 20%?);(2) 仅有 on-line DQN agent 观察到的所有样本的 1% 和 10%(大概是整个训练过程随机取 1 ~ 10%)。
    • 对 (1),与 QR-DQN 和 REM 持平;对 (2),显著 outperform,尤其是在只有 1% 数据的条件下。
  • 对 CQL 的分析:
    • 通过计算 CQL 得到的 value function V hat,与真实 discounted return 进行比较,证明我们的 value function 是下限。
      • 计算了 baseline(off-line RL)的一些 value function,包括 ① Q-function ensemble(防止 over-estimate 的常用方法) ② BEAR [30] 一种 policy constraint 方法,发现它们 over-estimate 了。
      • 还对公式 1 中的 CQL variant 进行评估,发现公式 2 确实获得了比公式 1 更紧的下限。
    • Appendix B:跑实验证明定理 3.4(CQL 的 gap-expanding)。
    • Appendix G: CQL 的 ablation study。

7 discussion

  • 提出了 off-line RL 的 CQL 框架:可以学习 Q function 的 lower-bound。
    • CQL 可直接应用于大规模数据集丰富的实际问题:自动驾驶、机器人和软件系统(如推荐系统)。
  • limitations & future works:
    • 虽然已经证明了 CQL 可以在 tabular、线性函数近似、某些非线性函数近似 Q function 的情况下,学习 Q function 的下限,但对 CQL + Deep NN 的严格理论分析,仍有待于未来的工作。
    • 此外,off-line RL 与标准监督学习方法一样,容易出现过拟合问题,因此未来工作的另一个重要挑战是,设计简单有效的早期停止方法,类似于监督学习中的验证误差。

Appendix

https://proceedings.neurips.cc/paper_files/paper/2020/file/0d2b2061826a5df3221116a5085a6052-Supplemental.pdf

  • A. Discussion of CQL Variants - 讨论 CQL 的变体:CQL(H) CQL(ρ) CQL(var)。
  • B. Discussion of Gap-Expanding Behavior of CQL Backups - 好像是关于 CQL gap-expanding 的实验。
  • C. Theorem Proofs - 出现在正文中的定理 3.1 - 3.4 的证明。
  • D. Additional Theoretical Analysis - 进一步的理论分析。
    • D.1 使用 Q function approximation 的 lower-bound 证明。
    • D.2 公式 2 中 arg min α [E_μ Q - E_\(\pi_\beta\) Q] ,如果把 \(\pi_\beta\) 位置选择别的分布会怎样。
    • D.3 公式 2 的 sample-based version(?)
    • D.4 Safe Policy Improvement Guarantee for CQL。
  • E. related work 扩展。
  • F. setup 与实验细节等。
  • G. Ablation Studies。