郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
35th Conference on Neural Information Processing Systems (NeurIPS 2021)
Abstract
最近的研究表明,深度强化学习智能体很容易受到智能体输入上的小对抗性扰动的影响,这引发了人们对在现实世界中部署此类代理的担忧。为了解决这个问题,我们提出了RADIAL-RL,这是一个原则性框架,用于训练增强学习代理,提高其对lp范数有界对抗性攻击的鲁棒性。我们的框架与流行的深度强化学习算法兼容,并通过深度Q学习、A3C和PPO展示了其性能。我们在三个深度RL基准(Atari、MuJoCo和ProcGen)上进行了实验,以展示我们的鲁棒训练算法的有效性。当针对不同强度的攻击进行测试时,我们的RADIAL-RL代理始终优于先前的方法,并且在训练时计算效率更高。此外,我们提出了一种新的评估方法,称为贪婪最坏情况奖励(GWC),以衡量深度RL代理的攻击不可知鲁棒性。我们表明,GWC可以被有效地评估,并且是在最坏可能的对抗性攻击序列下对奖励的良好估计。用于我们实验的所有代码都可以在https://github.com/tuomaso/radial_rl_v2.
- Reinforcement Adversarial Learning through Robustreinforcement adversarial learning through representation sparsification learning robust learning examples reweight robust reinforcement adversarial redefining robustness reinforcement perturbations observations adversarial reinforcement learning adversarial resistant learning towards adversarial patterns learning machine noise reinforcement exploration learning reinforcement distillation teachable learning