共轭梯度法-526互联

共轭梯度法

适应于求解非线性优化问题
线性共轭梯度法和非线性共轭梯度法

1 共轭方向

梯度下降法和共轭方向法优过程的区别：

v2-b5e388a93e4197409403ff582eb33111_720w

可以发现：

共轭方向法分别按两个轴的方向搜索（逐维搜索）
每次搜索只更新迭代点的一个维度
保证每次迭代的那个维度达最优
共轭方向法的两个搜索方向正交（特殊情况）

从正交推广到共轭

v2-ce6d0fa9e0db6475ae0cec6420672f61_720w

对比之前空间的 “椭圆” 可以直观的发现这里的 “椭圆” 倾斜了，如果按原来正方向的形式（特殊情况）选取搜索方向显然违背了共轭方向法的本意。

如果将原标准空间的 “椭圆” 的倾斜变换，视为其在空间的线性变换，同时让原来的搜索方向（正交）参与到这种空间的线性变换中，得到的结果可以如下图表示。

v2-25a5b1224eafea8a2ff1fc4f480c67fd_720w

可以从上图发现原空间正交的两个搜索方向经过空间的线性变换后不再正交，但是和 “椭圆” （的轴）贴合的还是很好。如果将这种空间的线性变换描述为 \(Q\)，那么可以说原度量空间 \(I\) 在线性变换后变成了 \(Q\)，同时搜索方向 “沿轴搜索” 的性质依然存在。由于这种变换非仿射变换，所以原空间的 0 在 \(Q\) 度量的意义下还是 0 。
这时假设连个搜索方向为 \(d_1\) 和 \(d_2\)，在原空间中 \(d_1\) 和 \(d_2\) 正交，即 \(d_1^T d_2 = 0\) 。经线性变换 \(Q\) 后 \(d_1^T d_2 = 0\) 变成 \(d_1^T Q d_2 = 0\) (这实际上就是共轭的表达式)

共轭的定义

设 \(Q\) 是正定矩阵，若对于两个不同的非零向量 \(d_i\) 和 \(d_j\) 满足：

\[d_i^T Q d_j = 0 \]

则称 \(d_i\) 和 \(d_j\) 是共轭方向

共轭向量组

一组方向 \(d_0, d_1, \dots, d_{n-1}\) 中的任意两个向量 \(d_i\) 和 \(d_j\) 满足 \(d_i^T Q d_j = 0\)
共轭向量组中的向量一定线性无关
若 \(Q\) 是正定矩阵，则存在唯一的对称矩阵 \(A\) 使 \(Q = AA\)，矩阵 \(A\) 也被称为矩阵 \(Q\) 的平方根

二次型的共轭方向

需要的共轭向量组就是目标二次型的 Hessian 矩阵的平方根逆矩阵的列向量组。

2 共轭方向法框架

① 给定迭代初值 \(x_0\) 和阈值 \(\epsilon > 0\)，令 \(k = 0\)

② 计算 \(g_0 = \nabla f(x_0)\) 和初始下降方向，满足 \(d_0^Tg_0 < 0\)

③ Do while( 不满足 \(||g_k|| < \epsilon\) )

a. 线搜索确定步长：\(\alpha_k = \arg\min_\alpha f(x_k + \alpha d_k)\)

b. 更新迭代点：\(x_{k+1} = x_k + \alpha_k d_k\)

c. 采用某种共轭方法计算得到 \(d_{k+1}\)，使得 \(d_{k+1}^T G d_j = 0, j = 0,1,\dots,k\)

d. 令 \(k = k + 1\)

end while

3 子空间扩展定理

第 \(k\) 次迭代时的方向与前面 \(k-1\) 次迭代得到的所有搜索方向正交
第 \(k\) 次得到的搜索方向正交于前面 \(k-1\) 次搜索方向张成的线性空间
每次迭代得到 \(d_k\) ，原子空间的维度便得到扩展，即 \(k-1\) 维的线性空间变成了 \(k\) 维
\(G\) 是正定矩阵，\(d_i\) 和 \(d_j\) 关于 \(G\) 共轭，对于二次型 \(f(x) = \dfrac{1}{2} x^TGx - b^Tx\) ：
- \(g_k = G x_k + b\)
- \(g_{k+1}^T d_j = 0, \;\; j = 0,1,\dots,k\)
- \(g_{k+1} - g_k = G(x_{k+1} - x_k) = \alpha_k G d_k\)