526互联
首页
Ai
Java
Python
Android
Mysql
JavaScript
Html
CSS
lower-bound
off-line RL | CQL:魔改 Bellman error 更新,得到 Q 函数 lower-bound
论文题目: Conservative Q-Learning for Offline Reinforcement Learning CQL 是师兄盛赞的一篇论文:“是 off-line RL 最精彩的工作之一,扭曲了 Q function,认为没看过的 Q 很有风险,把 OOD(out of dist ......
lower-bound
函数
off-line
Bellman
error
更新时间 2023-11-07
共1篇 :1/1页
首页
上一页
1
下一页
尾页