The Predictron: End-To-End Learning and Planning-526互联

发表时间：2017（ICML 2017）
文章要点：这篇文章设计了一个叫Predictron的结构，在abstract的状态上进行学习，通过multiple planning depths来使得model self-consistent，进行端对端的学习。这里的设定是MRP，不是MDP，所以没有动作，只有状态转移。整个模型包括一个state representation，也就是encoder，一个model，用来做状态转移，以及一个value function。这里的一个想法就是，不管是1-step的planning，还是k-step的planning，他们最终学到的值都应该是一样的。就算我搞一个\(\lambda\)-return，最终的预测还是应该是一个东西。然后在学这个model的时候，就把所有的这些目标都一起学。比如只学k-step就是

学0-K步就是

学\(\lambda\)-return就是

最后这些目标其实都是同一个目标，所以还可以让他们互相拟合，比如对着\(\lambda\)-return学

然后就结束了。
总结：其实这个背景设置是Markov reward process，所以没有policy，整个过程就是在学model和value。
疑问：不是很理解创新在哪，可能比较早吧。