off-line

off-line RL | CQL：魔改 Bellman error 更新，得到 Q 函数 lower-bound

论文题目： Conservative Q-Learning for Offline Reinforcement Learning CQL 是师兄盛赞的一篇论文：“是 off-line RL 最精彩的工作之一，扭曲了 Q function，认为没看过的 Q 很有风险，把 OOD（out of dist ......

lower-bound 函数 off-line Bellman error更新时间 2023-11-07

共1篇 :1/1页 首页上一页1下一页尾页

526互联

off-line

off-line RL | CQL：魔改 Bellman error 更新，得到 Q 函数 lower-bound