526互联
首页
Ai
Java
Python
Android
Mysql
JavaScript
Html
CSS
PEBBLE
RLHF · PBRL | PEBBLE:通过 human preference 学习 reward model
① 使用熵 intrinsic reward 的 agent pre-training,② 选择尽可能 informative 的 queries 去获取 preference,③ 使用更新后的 reward model 对 replay buffer 进行 relabel。 ......
preference
PEBBLE
reward
human
model
更新时间 2023-11-09
共1篇 :1/1页
首页
上一页
1
下一页
尾页