8.7.1 循环神经网络的梯度分析

本节主要探讨梯度相关问题，因此对模型及其表达式进行了简化，进行如下表示：

\[\begin{align} h_t&=f(x_t,h_{t-1},w_h)\\ o_t&=g(h_t,w_o) \end{align} \]

参数字典：

\(t\) 表示时间步
\(h_t\) 表示时间步 \(t\) 的隐状态
\(x_t\) 表示输入
\(o_t\) 表示输出
\(w_h\) 表示隐藏层权重
\(w_o\) 表示输出层权重
\(f\) 表示隐藏层变换
\(g\) 表示输出层权重

前向传播相当简单，一次一个时间步的遍历三元组 \((x_t,h_t,o_t)\)，然后通过一个目标函数在所有 \(T\) 个时间步内评估输出 \(o_t\) 和对应的标签 \(y_t\) 之间的差异：

\[L(x_1,\dots,x_T,y_1,\dots,y_T,w_h,w_o)=\frac{1}{T}\sum^T_{t=1}l(y_t,o_t) \]

对于反向传播，就很棘手了，特别是计算目标函数 \(L\) 关于参数 \(w_h\) 的梯度时，按照链式法则：

\[\begin{align} \frac{\partial L}{\partial w_h}&=\frac{1}{T}\sum^T_{t=1}\frac{\partial l(y_t,o_t)}{\partial w_h}\\ &=\frac{1}{T}\sum^T_{t=1}\frac{\partial l(y_t,o_t)}{\partial o_t}\frac{\partial g(h_t,w_o)}{\partial h_t}\frac{\partial h_t}{\partial w_h} \end{align} \]

乘积的第一项和第二项很容易计算，而第三项 \(\partial h_t/\partial w_h\) 是使事情变得棘手的地方，因为我们需要循环地计算参数 \(w_h\) 对 \(h_t\) 的影响。根据定义式中的递归计算，\(h_t\) 既依赖于 \(h_{t-1}\) 又依赖于 \(w_h\)，其中 \(h_{t-1}\) 的计算也依赖于 \(w_h\)。因此，使用链式法则产生：

\[\frac{\partial h_t}{\partial w_h}=\frac{\partial f(x_t,h_{t-1},w_h)}{\partial w_h}+\frac{\partial f(x_t,h_{t-1},w_h)}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h} \]

消掉递归计算得

\[\frac{\partial h_t}{\partial w_h}=\frac{\partial f(x_t,h_{t-1},w_h)}{\partial w_h}+\sum^{t-1}_{i=1}(\prod^t_{j=i+1}\frac{\partial f(x_t,h_{j-1},w_h)}{\partial h_{j-1}})\frac{\partial f(x_i,h_{i-1},w_h)}{\partial w_h} \]

虽然我们可以使用链式法则递归地计算 \(\partial h_t/\partial w_h\)，但当 \(t\) 很大时这个链就会变得很长。需要想办法来处理这一问题.

8.7.1.1 完全计算

最简单粗暴的方法，可以直接计算，然而，这样的计算非常缓慢，并且可能会发生梯度爆炸，因为初始条件的微小变化就可能会对结果产生巨大的影响。也就是说类似于蝴蝶效应，即初始条件的很小变化就会导致结果发生不成比例的变化。而我们正在寻找的是能够很好地泛化高稳定性模型的估计器。因此，在实践中，这种方法几乎从未使用过。

8.7.1.2 随即截断

可以用一个随机变量替换 \(\partial h_t/\partial w_h\)，该随机变量在预期中是正确的，但是会截断序列。这个随机变量是通过使用序列 \(\xi_t\) 来实现的，序列预定义了 \(0<\pi_t<1\)，其中 \(P(\xi_t=0)=1-\pi_t\) 且 \(P(\xi_t=\pi_t^{-1}=\pi_t)\)，因此 \(E|\xi_t|=1\)。我们使用它来替换梯度 \(\partial h_t/\partial w_h\) 得到：

(8.7.8)

\[z_t=\frac{\partial f(x_t,h_{t-1},w_h)}{\partial w_h}+\xi_t\frac{\partial f(x_t,h_{t-1},w_h)}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h} \]

从 \(\xi_t\) 的定义中推导出来 \(E|\xi_t|=\partial h_t/\partial w_h\)。每当 \(\xi_t=0\) 时，递归计算终止在这个 \(t\) 时间步。这导致了不同长度序列的加权和，其中长序列出现的很少，所以将适当地加大权重。