526互联
首页
Ai
Java
Python
Android
Mysql
JavaScript
Html
CSS
非理性
RLHF · PBRL | B-Pref:生成多样非理性 preference,建立 PBRL benchmark
贡献:提出一种生成非理性(模拟人类)preference 的方法,使用多样化的 preference,评测了 PBRL 各环节算法设计(select informative queries、feedback schedule)的效果。 ......
非理性
PBRL
preference
benchmark
B-Pref
更新时间 2023-11-30
共1篇 :1/1页
首页
上一页
1
下一页
尾页