on-policy

RLHF · PbRL | 选择 near on-policy query，加速 policy learning 收敛速度

Query-Policy Misalignment：选择的看似 informative 的 query，实际上可能与 RL agent 的兴趣不一致，因此对 policy learning 几乎没有帮助，最终导致 feedback-efficiency 低下。 ......

policy on-policy learning 速度 query更新时间 2023-12-17

行为策略与目标策略、On-policy与Off-policy

在强化学习中，行为策略和目标策略的区别在于，行为策略是智能体在环境中实际采取的策略，而目标策略是智能体希望学习的最优策略。¹ 行为策略和目标策略的差异会影响到强化学习算法的选择和性能。¹ 行为策略和目标策略都是强化学习中的重要概念。 (1) 强化学习中，确定性策略和随机策略的区别，以及各自经典的算法 ......

策略 policy Off-policy On-policy 行为更新时间 2023-03-24

Discretizing Continuous Action Space for On-Policy Optimization

**发表时间：**2020（AAAI 2020） **文章要点：**作者想说，连续动作通常都假设每个维度是高斯分布的，这就限制了策略一定是一个单峰，而离散动作就没有这个约束，所以有离散的必要。然后这篇文章提出了一个把连续动作空间离散化的方法，同时避免维度爆炸。通常如果一个连续空间有$M$个维度，如果 ......

Discretizing Optimization Continuous On-Policy Action更新时间 2023-03-23

共3篇 :1/1页 首页上一页1下一页尾页

526互联

on-policy

RLHF · PbRL | 选择 near on-policy query，加速 policy learning 收敛速度

行为策略与目标策略、On-policy与Off-policy

Discretizing Continuous Action Space for On-Policy Optimization