I. INTRODUCTION

解释是人类智能的关键机制，这种机制有可能提高RL代理在复杂环境中的表现

实现这一目标的一个核心设计挑战是将解释集成到计算表示中。即使在最小的规则集变化下，将规则集(或部分规则集)编码到智能体的观察空间等方法也可能导致严重的重新训练开销，因为规则的语义被明确地作为输入提供。这最大限度地减少了与现有方法的兼容性，并可能掩盖性能差异是由于体系结构的更改还是规则集的复杂性。本文提出一种与显式设计状态和观察空间无关的解决方案，使用一种解释感知的经验回放机制。

这些解释不需要被智能体理解传统意义上的解释，但如果示例是在语义和有意义的过程中标记/解释的，则仍然可以传达含义。

所提出方法通过将回放缓冲区(或内存)划分为多个簇，每个簇代表与作为示例的经验集合相关的不同解释，从而修改了传统的经验回放结构。

解释者用解释e标记a state-transition τ

contributions:

展示了** explanations的不同类型和实例**如何用于划分重播缓冲区并提高采样经验的规则覆盖率
设计了离散和连续的环境(GridDrive和GraphDrive)，与任意复杂度的模块化规则集(文化)兼容。
引入了传统算法(如DQN、TD3和SAC)的xaer修改版本，并在我们提出的环境中测试了这些修改版本的性能

B. Explanations in RL

一般来说，许多向RL代理解释的基于规则的方法通常属于称为安全RL的子学科
安全强化学习包括以下两种技术:在最优性准则中编码规则以及将这些外部知识纳入动作/状态空间

我们感兴趣的是对最有用的经验进行抽样，以弥补特定智能体的知识缺口。以智能体为中心的解释过程是一个迭代过程，它跟踪智能体的学习过程，并在每个时间步为其选择最有用的解释。

C. Prioritised Experience Replay

与我们的类似，旨在根据其explanatory content抽象地organise experience——被定义为回答相对于average experience的a sequence of state-transitions有多好/有多坏的能力。该工作只考虑对代理的直接表现的解释(即如何解释)，而缺乏对其他更丰富类型(即为什么)以及课程优先化设施的考虑。