强化学习Chapter3——贝尔曼方程
上一节介绍了衡量回报 \(R\) 的相关函数,包括状态价值函数与动作价值函数,并且介绍了二者之间的等式关系
\[V^\pi(s)=E_{a\sim\pi}[Q^\pi(s,a)]=\sum_{a}\pi(a|s)Q^\pi(s,a)\\
Q^\pi(s,a)=r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s')
\]
本节将通过这两个式子,导出贝尔曼方程
一、贝尔曼方程
根据 V 和 Q 的相互表示关系,可以预想到的是,从这两个式子可以导出类似动态规划的递归方程。下面将展示这个过程。
1、状态价值函数的贝尔曼方程
\[\begin{aligned}
V^\pi(s)&=\sum_{a}\pi(a|s)Q^\pi(s,a)\\
&=\sum_{a}\pi(a|s)(r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s'))\\
&=\sum_{a}\pi(a|s)r(s,a)+\gamma\sum_{a}\pi(a|s)\sum_{s'}P(s'|s,a)V^\pi(s')\\
&=E_{a\sim \pi}[r(s,a)]+\gamma E_{a\sim\pi}[E_{s'\sim P}[V^\pi(s')]]\\
&=E_{a\sim\pi,s'\sim P}[r(s,a)+\gamma V^\pi(s')]
\end{aligned}
\]
为了突出时间线的递推性,也可以写成:
\[V^\pi(s_t)=E_{a\sim\pi,s_{t+1}\sim P}[r(s_t,a)+\gamma V^\pi(s_{t+1})]
\]
其中 \(P\) 给定 \(s_t\) 和 \(a\) 的条件下,\(s_{t+1}\) 的分布。
2、动作价值函数的贝尔曼方程
\[\begin{aligned}
Q^\pi(s,a)&=r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s')\\
&=r(s,a)+\gamma\sum_{s'}P(s'|s,a)\sum_{a}\pi(a'|s)Q^\pi(s,a')\\
&=r(s,a)+\gamma\sum_{s'}P(s'|s,a)E_{a'\sim\pi}[Q(s,a')]\\
&=r(s,a)+\gamma E_{s'\sim P,a'\sim\pi}E[Q(s',a')]\\
&=E_{a'\sim \pi, s'\sim P}[r(s,a)+\gamma Q(s',a')]
\end{aligned}
\]
同理,也可以写成时间线的递推性是,此处不再赘述。可见,二者的形式其实十分相近。
二、贝尔曼最优方程
即采用最优策略得到的 \(V\) 和 \(Q\) 的最值 \(V^*\) 和 \(Q^*\),下面直接写出
\[V^*(s)=\max_a E_{s'\sim P}[r(s,a)+\gamma V^*(s')]\\
Q^*(s,a)=E_{s'\sim P}[r(s,a)+\gamma \max_{a'}Q^*(s',a')]
\]
可以看到的是,这里“最优”的约束只在动作层面,而动作是由策略导出的,因此贝尔曼最优方程,其实是最优策略对应的贝尔曼方程。
三、贝尔曼方程的应用
需要先推导出其向量形式,才能参与计算,先占个坑。