B-Pref

贡献：提出一种生成非理性（模拟人类）preference 的方法，使用多样化的 preference，评测了 PBRL 各环节算法设计（select informative queries、feedback schedule）的效果。 ......