RLChina理论三:强化学习基础

发布时间 2023-07-17 21:13:18作者: 仔仔的棒棒糖

强化学习基础


马尔可夫决策过程就是在,环境自发做出转变,是个随波逐流的过程,At是智能体的行动,在St环境状态下加入At动作,c才进入下个状态S(t+1),即环境有自己的变化,也加入了智能体的决策。

有无监督学习与强化学习的区别

价值迭代和策略迭代区别

uploading-image-839474.png

五、无模型控制方法

只知道数据,不知道环境的转移函数是什么,常见的两种算法法
(1)SARSA

(2)Q学习,可以再次利用与环境交互产生的数据

价值函数近似算法


使用参数化的模型,来不断调整参数,来逼近
在训练过程中两者都在发生变化,由于参数可导,可以用链式法则去更新参数是θ。

策略梯度(强化学习得精髓)


A2动作得到正向得奖励,增大选择A2动作的概率,适当降低其他动作的选这概率,同理A3得到负的奖励,降低选择A3动作的概率,适当增加其他动作的概率。这就是一个交互性、试错性的学习。

在求导过程中可以使用一个技巧,似然比