Hessian矩阵简介

发布时间 2023-10-18 11:47:09作者: zzqDeco

1. 梯度(Gradient)

当我们在多维空间(例如,多个变量的情况)中谈论函数的变化时,我们使用梯度来表示这种变化。梯度是一个向量,其每个分量都是函数关于该分量方向的偏导数。它指向函数增长最快的方向。

2. Hessian矩阵

如果我们不仅对函数如何变化感兴趣,还对函数变化的速率(即,加速度)感兴趣,我们就会涉及到二阶导数。在多维空间中,函数的二阶偏导数构成了所谓的Hessian矩阵。具体来说,如果你有一个关于变量 (x_1, x_2, ..., x_n) 的函数 (f),那么Hessian矩阵 (H) 就是一个 (n \times n) 矩阵,其中每个元素 (H_{ij}) 是函数 (f) 关于 (x_i) 和 (x_j) 的二阶偏导数。

3. 凸性与Hessian矩阵

函数的凸性意味着其形状“向上凸起”,即,如果你在该函数的两个点之间取一条直线,那么这条直线应该位于函数的图形之上(对于凸函数)或刚好在图形上。数学上,一个二次可微函数是凸的,当且仅当其Hessian矩阵是半正定的。

  • 如果Hessian是正定的(即,它的所有特征值都是正的),那么函数在所有方向上都是向上凸起的,这意味着这是一个凸函数,局部最小值也是全局最小值。
  • 如果Hessian是负定的(即,它的所有特征值都是负的),那么函数在所有方向上都是向下凹的,这意味着这是一个凹函数。
  • 如果Hessian矩阵既不是正定的也不是负定的,则函数可能在某些方向上是凸的,而在其他方向上是凹的,这称为鞍点或非凸/非凹情况。

在最小二乘问题中,目标函数是一个二次形式,其Hessian矩阵是常数(不随变量变化而变化),并且是 (A^T A) 的2倍(这里的 (A) 是设计矩阵)。如果 (A^T A) 是正定的,那么Hessian矩阵也是正定的,指示着一个凸函数。