BCQ

offline RL | BCQ:学习 offline dataset 的 π(a|s),直接使用 (s, π(s)) 作为 Q learning 训练数据

① 使用 VAE 建模 offline dataset 的 π(a|s),② 添加一个可以学习的 action 扰动 ξ,③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。 ......
offline learning dataset 数据 BCQ
共1篇  :1/1页 首页上一页1下一页尾页