强化学习Chapter3——贝尔曼方程

上一节介绍了衡量回报 \(R\) 的相关函数，包括状态价值函数与动作价值函数，并且介绍了二者之间的等式关系

\[V^\pi(s)=E_{a\sim\pi}[Q^\pi(s,a)]=\sum_{a}\pi(a|s)Q^\pi(s,a)\\ Q^\pi(s,a)=r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s') \]

本节将通过这两个式子，导出贝尔曼方程

一、贝尔曼方程

根据 V 和 Q 的相互表示关系，可以预想到的是，从这两个式子可以导出类似动态规划的递归方程。下面将展示这个过程。

1、状态价值函数的贝尔曼方程

\[\begin{aligned} V^\pi(s)&=\sum_{a}\pi(a|s)Q^\pi(s,a)\\ &=\sum_{a}\pi(a|s)(r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s'))\\ &=\sum_{a}\pi(a|s)r(s,a)+\gamma\sum_{a}\pi(a|s)\sum_{s'}P(s'|s,a)V^\pi(s')\\ &=E_{a\sim \pi}[r(s,a)]+\gamma E_{a\sim\pi}[E_{s'\sim P}[V^\pi(s')]]\\ &=E_{a\sim\pi,s'\sim P}[r(s,a)+\gamma V^\pi(s')] \end{aligned} \]

为了突出时间线的递推性，也可以写成：

\[V^\pi(s_t)=E_{a\sim\pi,s_{t+1}\sim P}[r(s_t,a)+\gamma V^\pi(s_{t+1})] \]

其中 \(P\) 给定 \(s_t\) 和 \(a\) 的条件下，\(s_{t+1}\) 的分布。

2、动作价值函数的贝尔曼方程

\[\begin{aligned} Q^\pi(s,a)&=r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s')\\ &=r(s,a)+\gamma\sum_{s'}P(s'|s,a)\sum_{a}\pi(a'|s)Q^\pi(s,a')\\ &=r(s,a)+\gamma\sum_{s'}P(s'|s,a)E_{a'\sim\pi}[Q(s,a')]\\ &=r(s,a)+\gamma E_{s'\sim P,a'\sim\pi}E[Q(s',a')]\\ &=E_{a'\sim \pi, s'\sim P}[r(s,a)+\gamma Q(s',a')] \end{aligned} \]

同理，也可以写成时间线的递推性是，此处不再赘述。可见，二者的形式其实十分相近。