on-policy

RLHF · PbRL | 选择 near on-policy query,加速 policy learning 收敛速度

Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 几乎没有帮助,最终导致 feedback-efficiency 低下。 ......
policy on-policy learning 速度 query

行为策略与目标策略、On-policy与Off-policy

在强化学习中,行为策略和目标策略的区别在于,行为策略是智能体在环境中实际采取的策略,而目标策略是智能体希望学习的最优策略。¹ 行为策略和目标策略的差异会影响到强化学习算法的选择和性能。¹ 行为策略和目标策略都是强化学习中的重要概念。 (1) 强化学习中,确定性策略和随机策略的区别,以及各自经典的算法 ......
策略 policy Off-policy On-policy 行为

Discretizing Continuous Action Space for On-Policy Optimization

**发表时间:**2020(AAAI 2020) **文章要点:**作者想说,连续动作通常都假设每个维度是高斯分布的,这就限制了策略一定是一个单峰,而离散动作就没有这个约束,所以有离散的必要。然后这篇文章提出了一个把连续动作空间离散化的方法,同时避免维度爆炸。通常如果一个连续空间有$M$个维度,如果 ......
共3篇  :1/1页 首页上一页1下一页尾页