Pessimistic

offline RL | Pessimistic Bootstrapping (PBRL):在 Q 更新中惩罚 uncertainty,拉低 OOD Q value

critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。 ......
共1篇  :1/1页 首页上一页1下一页尾页