Prioritizing

Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss

#1 Introduction 本文建议根据样本的可学习性进行抽样，而不是从经验回放中随机抽样。如果有可能减少代理对该样本的损失，则认为该样本是可学习的。我们将可以减少样本损失的数量称为其可减少损失(ReLo)。这与Schaul等人[2016]的vanilla优先级不同，后者只是对具有高损失的样本给 ......

Reinforcement Prioritizing Reducible Learning Samples更新时间 2023-05-17

共1篇 :1/1页 首页上一页1下一页尾页

526互联

Prioritizing

Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss