526互联
首页
Ai
Java
Python
Android
Mysql
JavaScript
Html
CSS
Teachable
Teachable Reinforcement Learning via Advice Distillation
**发表时间:**2021 (NeurIPS 2021) **文章要点:**这篇文章提出了一种学习policy的监督范式,大概思路就是先结构化advice,然后先学习解释advice,再从advice中学policy。这个advice来自于外部的teacher,相当于一种human-in-the-l ......
Reinforcement
Distillation
Teachable
Learning
Advice
更新时间 2023-05-02
共1篇 :1/1页
首页
上一页
1
下一页
尾页