Multi-Fidelity

用 Gaussian Process 建模 state-action 空间相关性,加速 Multi-Fidelity RL

基于 14 年的 MFRL 论文,利用相邻 state-action 的空间相关性来加速学习,用 gaussian processes 建模 env dynamics(model-based)/ Q function(model-free),得到了两种跟 14 年 MFRL 很相似的算法 。 ......

打着 multi-fidelity RL 旗号,然而幼稚监督学习 + 迁移学习

RL episode 长度 = 1,先用 PPO 在 low-fidelity env 上学;维护一个 reward 的方差,如果方差足够小,就从 low-fidelity env 迁移到 high-fidelity env。 ......
旗号 multi-fidelity fidelity multi RL
共2篇  :1/1页 首页上一页1下一页尾页