Teachable

Teachable Reinforcement Learning via Advice Distillation

**发表时间：**2021 (NeurIPS 2021) **文章要点：**这篇文章提出了一种学习policy的监督范式，大概思路就是先结构化advice，然后先学习解释advice，再从advice中学policy。这个advice来自于外部的teacher，相当于一种human-in-the-l ......

Reinforcement Distillation Teachable Learning Advice更新时间 2023-05-02

共1篇 :1/1页 首页上一页1下一页尾页

526互联

Teachable

Teachable Reinforcement Learning via Advice Distillation