强化学习Chapter3——贝尔曼方程

发布时间 2023-07-13 17:05:50作者: tsyhahaha

强化学习Chapter3——贝尔曼方程

上一节介绍了衡量回报 \(R\) 的相关函数,包括状态价值函数与动作价值函数,并且介绍了二者之间的等式关系

\[V^\pi(s)=E_{a\sim\pi}[Q^\pi(s,a)]=\sum_{a}\pi(a|s)Q^\pi(s,a)\\ Q^\pi(s,a)=r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s') \]

本节将通过这两个式子,导出贝尔曼方程

一、贝尔曼方程

根据 V 和 Q 的相互表示关系,可以预想到的是,从这两个式子可以导出类似动态规划的递归方程。下面将展示这个过程。

1、状态价值函数的贝尔曼方程

\[\begin{aligned} V^\pi(s)&=\sum_{a}\pi(a|s)Q^\pi(s,a)\\ &=\sum_{a}\pi(a|s)(r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s'))\\ &=\sum_{a}\pi(a|s)r(s,a)+\gamma\sum_{a}\pi(a|s)\sum_{s'}P(s'|s,a)V^\pi(s')\\ &=E_{a\sim \pi}[r(s,a)]+\gamma E_{a\sim\pi}[E_{s'\sim P}[V^\pi(s')]]\\ &=E_{a\sim\pi,s'\sim P}[r(s,a)+\gamma V^\pi(s')] \end{aligned} \]

为了突出时间线的递推性,也可以写成:

\[V^\pi(s_t)=E_{a\sim\pi,s_{t+1}\sim P}[r(s_t,a)+\gamma V^\pi(s_{t+1})] \]

其中 \(P\) 给定 \(s_t\)\(a\) 的条件下,\(s_{t+1}\) 的分布。

2、动作价值函数的贝尔曼方程

\[\begin{aligned} Q^\pi(s,a)&=r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s')\\ &=r(s,a)+\gamma\sum_{s'}P(s'|s,a)\sum_{a}\pi(a'|s)Q^\pi(s,a')\\ &=r(s,a)+\gamma\sum_{s'}P(s'|s,a)E_{a'\sim\pi}[Q(s,a')]\\ &=r(s,a)+\gamma E_{s'\sim P,a'\sim\pi}E[Q(s',a')]\\ &=E_{a'\sim \pi, s'\sim P}[r(s,a)+\gamma Q(s',a')] \end{aligned} \]

同理,也可以写成时间线的递推性是,此处不再赘述。可见,二者的形式其实十分相近。

二、贝尔曼最优方程

即采用最优策略得到的 \(V\)\(Q\) 的最值 \(V^*\)\(Q^*\),下面直接写出

\[V^*(s)=\max_a E_{s'\sim P}[r(s,a)+\gamma V^*(s')]\\ Q^*(s,a)=E_{s'\sim P}[r(s,a)+\gamma \max_{a'}Q^*(s',a')] \]

可以看到的是,这里“最优”的约束只在动作层面,而动作是由策略导出的,因此贝尔曼最优方程,其实是最优策略对应的贝尔曼方程。

三、贝尔曼方程的应用

需要先推导出其向量形式,才能参与计算,先占个坑。