行为策略与目标策略、On-policy与Off-policy-526互联

在强化学习中，行为策略和目标策略的区别在于，行为策略是智能体在环境中实际采取的策略，而目标策略是智能体希望学习的最优策略。¹ 行为策略和目标策略的差异会影响到强化学习算法的选择和性能。¹

行为策略和目标策略都是强化学习中的重要概念。

(1) 强化学习中，确定性策略和随机策略的区别，以及各自经典的算法是什么? - 知乎. https://www.zhihu.com/question/65005739 Accessed 2023/3/24.

(2) 强化学习中on-policy 与off-policy有什么区别？ - 知乎. https://www.zhihu.com/question/57159315 Accessed 2023/3/24.
(3) 强化学习（Reinforcement Learning）知识整理 - 知乎. https://zhuanlan.zhihu.com/p/25319023 Accessed 2023/3/24.

在强化学习中，on-policy和off-policy是两种不同的学习方式。¹ On-policy是指智能体在学习过程中采用的策略与其目标策略相同，而off-policy则是指智能体在学习过程中采用的策略与其目标策略不同。¹

具体来说，on-policy算法使用当前策略搜集的数据训练模型，每条数据仅使用一次。而off-policy算法则使用不需要是当前策略搜集的数据进行训练。²

如果你想了解更多关于强化学习中on-policy和off-policy的区别，请参考上面提供的链接。如果你有其他问题，请告诉我。?

(1) 强化学习On-policy vs Off-policy_强化学习on policy off policy_Longlongaaago的博客 .... https://blog.csdn.net/Willen_/article/details/121848119 Accessed 2023/3/24.
(2) 离线强化学习与在线强化学习_小郁同学的博客-CSDN博客. https://blog.csdn.net/qq_42743778/article/details/120063861 Accessed 2023/3/24.
(3) 强化学习中on-policy 与off-policy有什么区别？ - 知乎. https://www.zhihu.com/question/57159315 Accessed 2023/3/24.
(4) 强化学习中的奇怪概念(一)——On-policy与off-policy - 知乎. https://zhuanlan.zhihu.com/p/346433931 Accessed 2023/3/24.

举个例子，假设你正在玩一个赌博游戏，你的目标是赢得尽可能多的钱。如果你使用on-policy算法，那么你会在游戏中使用与你目标策略相同的策略来玩游戏。也就是说，你会在游戏中使用与你希望学习的最优策略相同的策略。如果你使用off-policy算法，那么你会在游戏中使用与你目标策略不同的策略来玩游戏。也就是说，你会在游戏中使用一个不同于你希望学习的最优策略的策略。

在强化学习中，on-policy和off-policy是两种不同的学习方法。在on-policy方法中，目标策略和行为策略是同一个策略，即在训练过程中做决策的策略和学习训练完毕后拿去应用的策略是同一个。这种方法简单粗暴，直接利用数据就可以优化其策略，但这样的处理会导致策略其实是在学习一个局部最优，因为on-policy的策略没办法很好的同时保持即探索又利用。而在off-policy方法中，目标策略和行为策略分开，可以在保持探索的同时，更能求到全局最优值。但其难点在于：如何在一个策略下产生的数据来优化另外一个策略？²³⁴

(1) 强化学习1：彻底分清On-Policy&Off-Policy - 知乎. https://zhuanlan.zhihu.com/p/42919516 Accessed 2023/3/24.
(2) What is the difference between off-policy and on-policy learning?. https://stats.stackexchange.com/questions/184657/what-is-the-difference-between-off-policy-and-on-policy-learning Accessed 2023/3/24.
(3) 强化学习中on-policy 与off-policy有什么区别？ - 知乎. https://www.zhihu.com/question/57159315 Accessed 2023/3/24.
(4) What is the difference between off-policy and on-policy learning?. https://stats.stackexchange.com/questions/184657/what-is-the-difference-between-off-policy-and-on-policy-learning Accessed 2023/3/24.
(5) 强化学习中的奇怪概念(一)——On-policy与off-policy - 知乎. https://zhuanlan.zhihu.com/p/346433931 Accessed 2023/3/24.

SARSA和Q-learning都是强化学习中的经典算法，它们的主要区别在于更新策略的不同。SARSA是一种on-policy算法，即在训练过程中采用的策略和学习训练完毕后拿去应用的策略是同一个。而Q-learning是一种off-policy算法，即在训练过程中采用的策略和学习训练完毕后拿去应用的策略不是同一个。¹²³⁴

具体来说，SARSA算法会根据当前状态和当前动作来更新Q值，而Q-learning则会根据当前状态和最大动作值来更新Q值。因此，SARSA更加保守，而Q-learning更加贪婪。¹²³

(1) Q-learning与Sarsa算法的区别_sarsa算法和qlearning区别_赵YN的csdn的博客-CSDN博客. https://blog.csdn.net/qq_39004117/article/details/81705845 Accessed 2023/3/24.
(2) 什么是 Sarsa (强化学习) - 知乎. https://zhuanlan.zhihu.com/p/24860793 Accessed 2023/3/24.
(3) 强化学习(七)--Q-Learning和Sarsa - 知乎. https://zhuanlan.zhihu.com/p/46850008 Accessed 2023/3/24.
(4) What is the difference between Q-learning and SARSA?. https://stackoverflow.com/questions/6848828/what-is-the-difference-between-q-learning-and-sarsa Accessed 2023/3/24.
(5) 强化学习中，Q-Learning与Sarsa的差别有多大？ - 知乎. https://zhuanlan.zhihu.com/p/400963346 Accessed 2023/3/24.
(6) 强化学习笔记（3）——Q-learning、SARSA和SARSA(lambda) - 知乎. https://zhuanlan.zhihu.com/p/262019592 Accessed 2023/3/24.

在Q学习中，TD是Temporal Difference的缩写，即时间差分。时间差分学习是蒙特卡罗思想和动态规划的结合。与蒙特卡罗方法类似，时间差分方法可以直接从经验中学习，而不需要知道环境模型。与动态规划类似，时间差分方法基于其他学习的估计值来更新估计值，而不用等待最终的结果。¹

在Q学习中，TD目标值是基于即时奖励和下一状态的预估价值来替代当前状态在状态序列结束时可能得到的收获，是当前状态价值的有偏估计。²

(1) 强化学习 - 时间差分学习(Temporal-Difference Learning) - 知乎. https://zhuanlan.zhihu.com/p/73083240 Accessed 2023/3/24.
(2) 《强化学习基础》- 时序差分(TD)、SARSA、Q-learning - 知乎. https://zhuanlan.zhihu.com/p/382224733 Accessed 2023/3/24.
(3) 人力资源中的TD, LD, OD有怎样的区别和关联？ - 知乎. https://www.zhihu.com/question/31196176 Accessed 2023/3/24.

策略policy off-policy on-policy

on-policy

off-policy

policy on-policy learning速度

discretizing optimization continuous on-policy

off-policy alphazero targets greedy

reinforcement minimization experience off-policy

reinforcement exploration off-policy learning

off-policy learning planning policy

policy advantage-weighted off-policy regression