RLChina理论三：强化学习基础-526互联

马尔可夫决策过程就是在，环境自发做出转变，是个随波逐流的过程，At是智能体的行动，在St环境状态下加入At动作，c才进入下个状态S(t+1)，即环境有自己的变化，也加入了智能体的决策。

uploading-image-839474.png

只知道数据，不知道环境的转移函数是什么,常见的两种算法法
(1)SARSA

(2)Q学习，可以再次利用与环境交互产生的数据

使用参数化的模型，来不断调整参数，来逼近和
在训练过程中两者都在发生变化，由于参数可导，可以用链式法则去更新参数是θ。

A2动作得到正向得奖励，增大选择A2动作的概率，适当降低其他动作的选这概率，同理A3得到负的奖励，降低选择A3动作的概率，适当增加其他动作的概率。这就是一个交互性、试错性的学习。