off-line

off-line RL | CQL:魔改 Bellman error 更新,得到 Q 函数 lower-bound

论文题目: Conservative Q-Learning for Offline Reinforcement Learning CQL 是师兄盛赞的一篇论文:“是 off-line RL 最精彩的工作之一,扭曲了 Q function,认为没看过的 Q 很有风险,把 OOD(out of dist ......
lower-bound 函数 off-line Bellman error
共1篇  :1/1页 首页上一页1下一页尾页