旗号

打着 multi-fidelity RL 旗号,然而幼稚监督学习 + 迁移学习

RL episode 长度 = 1,先用 PPO 在 low-fidelity env 上学;维护一个 reward 的方差,如果方差足够小,就从 low-fidelity env 迁移到 high-fidelity env。 ......
旗号 multi-fidelity fidelity multi RL
共1篇  :1/1页 首页上一页1下一页尾页