PBRL

offline RL | Pessimistic Bootstrapping (PBRL):在 Q 更新中惩罚 uncertainty,拉低 OOD Q value

critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。 ......

RLHF · PbRL | 选择 near on-policy query,加速 policy learning 收敛速度

Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 几乎没有帮助,最终导致 feedback-efficiency 低下。 ......
policy on-policy learning 速度 query

RLHF · PBRL | B-Pref:生成多样非理性 preference,建立 PBRL benchmark

贡献:提出一种生成非理性(模拟人类)preference 的方法,使用多样化的 preference,评测了 PBRL 各环节算法设计(select informative queries、feedback schedule)的效果。 ......
非理性 PBRL preference benchmark B-Pref

RLHF · PBRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark

发现对于很多任务,(只要给出专家轨迹),将 reward 设为 0 或随机数,也能学出很好 policy,证明这些任务不适合用来评测 reward learning 的性能好坏。 ......
benchmark learning offline 部分 reward

RLHF · PBRL | SURF:使用半监督学习,对 labeled segment pair 进行数据增强

① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label;② 将 labeled segment pair 进行时序剪裁,得到更多数据增强的 labeled pair。 ......
labeled segment 数据 RLHF PBRL

RLHF · PBRL | RUNE:鼓励 agent 探索 reward model 更不确定的 (s,a)

reward model 对某 (s,a) 的不确定性,由一系列 ensemble reward models 的输出结果方差的度量,直接乘一个超参数,作为 intrinsic reward 的一部分。 ......
reward agent model RLHF PBRL

RLHF · PBRL | PEBBLE:通过 human preference 学习 reward model

① 使用熵 intrinsic reward 的 agent pre-training,② 选择尽可能 informative 的 queries 去获取 preference,③ 使用更新后的 reward model 对 replay buffer 进行 relabel。 ......
preference PEBBLE reward human model
共7篇  :1/1页 首页上一页1下一页尾页