Teachable

Teachable Reinforcement Learning via Advice Distillation

**发表时间:**2021 (NeurIPS 2021) **文章要点:**这篇文章提出了一种学习policy的监督范式,大概思路就是先结构化advice,然后先学习解释advice,再从advice中学policy。这个advice来自于外部的teacher,相当于一种human-in-the-l ......
共1篇  :1/1页 首页上一页1下一页尾页