reward

RLHF · PBRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark

发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。 ......

benchmark learning offline 部分 reward更新时间 2023-11-13

RLHF · PBRL | RUNE：鼓励 agent 探索 reward model 更不确定的 (s,a)

reward model 对某 (s,a) 的不确定性，由一系列 ensemble reward models 的输出结果方差的度量，直接乘一个超参数，作为 intrinsic reward 的一部分。 ......

reward agent model RLHF PBRL更新时间 2023-11-10

RLHF · PBRL | PEBBLE：通过 human preference 学习 reward model

① 使用熵 intrinsic reward 的 agent pre-training，② 选择尽可能 informative 的 queries 去获取 preference，③ 使用更新后的 reward model 对 replay buffer 进行 relabel。 ......

preference PEBBLE reward human model更新时间 2023-11-09

强化学习：reward function shaping —— 着陆器（lander）游戏中的奖励函数的设计

lander 游戏是强化学习问题中常使用的一个游戏场景，不同人对该问题都设置了不同的reward function，一直也没有对该游戏的各种reward function的设计做一个记录，正好看视频看到了一个该游戏的reward function的设计，这里mark下。资料来源： https:// ......

着陆器函数 function shaping reward更新时间 2023-06-27

Reward Modelling（RM）and Reinforcement Learning from Human Feedback（RLHF）for Large language models（LLM）技术初探

Reward Modelling（RM）and Reinforcement Learning from Human Feedback（RLHF）for Large language models（LLM）技术初探 ......

Reinforcement Modelling Learning Feedback language更新时间 2023-06-07

S2 - Lesson 51 - Reward for virtual

Content Reward for virtual My friend, Hugh, has always been fat, but things got so bad recently that he decided to go on a diet. He began his diet a w ......

virtual Lesson Reward for S2更新时间 2023-03-26

共6篇 :1/1页 首页上一页1下一页尾页