RL 的探索策略 | Exploration for RL

发布时间 2023-04-06 22:04:31作者: MoonOut

最近在草率地调研 RL 的 exploration。
这篇文章也比较草率,仅能起到辅助作用,不能代替读 review 或更精细的读 paper。



1 主要参考资料

2 RL 的主流 exploration 方法

在 review(第一个参考资料)中,exploration 的研究有两种动机:效率动机 与 安全动机。前者希望 exploration 能帮助 RL 尽快学会,而后者希望 RL 试错学习的过程中 保证安全性。

  • 安全动机的 exploration 的主要方法:
    • 罚函数(给非常大的负 reward);
    • 基于一些先验知识 强行限制(如强行改不安全的 action)。

对于效率动机的 exploration,这是 lilian weng 博客(第二个参考资料)的目录:

image-20230406211259866

我们的重点放在 1 prediction-based,2 memory-based。其他感觉都不是主流方法。

2.1 经典 exploration 方法

  • ε-greedy:随机探索的概率是 ε。
  • Upper Confidence Bound:最大化 \(\hat Q(a)+\hat U(a)\),其中 U 与 action 次数成反比。
  • Boltzmann exploration,Thompson sampling:
  • 添加一个 entropy loss \(H(\pi(a|s))\),鼓励 action diversity。
  • noise-based exploration:在 obs action 甚至 parameter space 里面掺 noise。
  • count-based exploration:用密度模型(或者某些哈希)来近似 state 访问的频率,然后用 \(1/\sqrt{N(s,a)}\) 之类作为 intrinsic reward,N 越小,reward 越大。

2.2 prediction-based method:

学习 env 的 dynamics

  • Intelligent Adaptive Curiosity(IAC):
  • Intrinsic Curiosity Module(ICM):
  • Variational information maximizing exploration(VIME):

不学 env dynamics 了

2.3 memory-based method

  • Episodic Curiosity:
  • Go-Explore:
  • policy-based Go-Explore
  • DTSIL(Diverse Trajectory-conditioned Self-Imitation Learning)

2.4 其他