Value targets in off-policy AlphaZero: a new greedy backup-526互联

发表时间：2021
文章要点：这篇文章给AlphaZero设计了一个新的value targets，AlphaZero with greedy backups (A0GB)。
AlphaZero的树里面有探索，而value又是所有结果的平均，所以并不准确。而选动作也是依概率选的，但真正测试的时候是选的访问次数最多的动作，所以这个方法是off-policy，也会存在不一致。作者比较了文章中提出的方法和几种常见的方法的区别，如下图所示

其中AlphaZero target用的是真实数据的胜负关系，Soft-Z target用的是根节点的估计，A0C target用的是根节点的子节点中最大的那个value backup回去得到的，文章提出的A0GB是用的greedy策略走到叶节点的value再backup回去得到的。
这里就涉及几个维度，一个是真实游戏的backup depth，另一个是树里面的backup depth，最后一个是树里面的backup width，所以作者就画了最上面那幅三个维度的图，以及总结的关系如下表

最后就在几个游戏上测试了一下，说他这个方式效果最好。
总结：感觉这个问题还挺有意思的，可以深入研究下这里面的关系。
疑问：无。