526互联
首页
Ai
Java
Python
Android
Mysql
JavaScript
Html
CSS
BCQ
offline RL | BCQ:学习 offline dataset 的 π(a|s),直接使用 (s, π(s)) 作为 Q learning 训练数据
① 使用 VAE 建模 offline dataset 的 π(a|s),② 添加一个可以学习的 action 扰动 ξ,③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。 ......
offline
learning
dataset
数据
BCQ
更新时间 2023-11-27
共1篇 :1/1页
首页
上一页
1
下一页
尾页