深入分析:矩阵梯度类实例研究

发布时间 2023-05-28 12:48:55作者: 信海

写在前面

本文主要用于围绕矩阵类求梯度等问题进行证明与分析,由于笔者的数理基础浅薄,下面的证明过程若存在错误,欢迎评论指正。

矩阵梯度的通用方法:先将矩阵写成微分形式,\(df=tr(GdX)\),然后得到$\nabla f=G^T $

案例1

\(\begin{array}{ll}\min_{U}&\dfrac{1}{2}\left\|\boldsymbol{R}\circ\left(\boldsymbol{Y}-\boldsymbol{UV}^{\top}\right)\right\|_{F}^{2}+\dfrac{\lambda_{1}}{2}\left\|\boldsymbol{U}-\boldsymbol{SU}\right\|_{F}^{2}+\dfrac{\lambda_{3}}{2}\left\|\boldsymbol{U}-\boldsymbol{T}\right\|_{F}^{2}.\end{array}\)

在上式中,主要目的为更新\(U\),其中\(V,Z,W,b\)固定,\(T=\psi(X)W+1b^T=KA+1b^T\)

首先对第一项求导,可以得到以下过程:

\(\underset{U}{\text{min}}\dfrac{1}{2}\left\|R\circ\left(Y-UV^{\mathrm{T}}\right)\right\|_{F}^{2}\Rightarrow\nabla U=R\circ\left(UV^{\mathrm{T}}-Y\right)V\)

1、将第一项展开可以得到如下形式:

\(\frac{1}{2}tr\{R^T\circ(Y-UV^T)^T(R\circ(Y-UC^T)) \}=\frac{1}{2} tr\{ R^T\circ(Y^T-VU^T)(R\circ(Y-UV^T))\}=\frac{1}{2}tr\{R^T\circ Y^T \cdot R \circ Y-2R^T\circ VU^T \cdot R\circ Y+\\ R^T\circ VU^T\cdot R \circ Y+R^T\circ VU^T\cdot R \circ UV^T \}\)

2、上式中第一项为与\(U\)无关项,可以忽略,下面对后面2项分别求导即可:

2.1 下面使用了\(tr(AB)=tr(BA)\)的性质

\(\frac{1}{2}\mathrm{tr}\left(-2(R\circ Y)\cdot\left(R^{\mathrm{T}}\circ V d(U^{\mathrm{T}})\right)\right) +\frac{1}{2}\left[\mathrm{tr}\left(\left(R\circ U V^{\mathrm{T}}\right)\cdot R^{\mathrm{T}}\circ V d(U^{\mathrm{T}})+\right.\right.\operatorname{tr}\left(\left(R^\mathrm{T}\circ VU^\mathrm{T}\circ R^\mathrm{T}\right)\cdot d(U)V^\mathrm{T}\right]\)

2.2 下面使用了\(tr(A(B\circ C))=tr((A\circ B^T)C)\)的性质

\(\frac{1}{2}\mathrm{tr}\left(-2((R\circ Y)\circ R)\cdot\left(V d(U^{\mathrm{T}})\right)\right)+\frac{1}{2}\left[\mathrm{tr}\left(\left(\left(R\circ U V^{\mathrm{T}}\right)\circ R\right)\cdot V d(U^{\mathrm{T}})\right)+\mathrm{tr}\left(\left(R^{\mathrm{T}}\circ V U^{\mathrm{T}}\right)\cdot d(U)V^{\mathrm{T}}\right)\right]\)

2.3 下面这项规定不一定通用,原文给出的\(R\)为指示矩阵,\(\{r_{ij}\}=1\),\(1\)\(1\)的哈达玛内积必然为\(1\),因此有\(R\circ R=R\)

\(\frac{1}{2}\mathrm{tr}(-2)(R\circ V)\cdot V d\left(U^{T}\right)+\frac{1}{2}\left[\mathrm{tr}\left(\left(R\circ U V^{T}\right)\cdot V d\left(U^{T}\right)\right)+\mathrm{tr}(V^{T}\left(R^{T}\circ V U^{T}\right)\cdot d(U))\right]\)

2.4 将最后一项利用\(tr(A)=tr(A^T)\)性质,那么2.3中式子可以更新为:

\(\begin{array}{r l}{-}&{\left(R\circ Y\right)\cdot V+\frac{1}{2}\times\left[\left(R\circ U V^{\mathrm{T}}\right)\cdot V+\left(R\circ U V^{\mathrm{T}}\right)\cdot V\right]}\end{array}\)

2.5 进一步简化可以得到其关于\(U\)的偏导为\(R\circ\left(UV^\mathrm{T}-Y\right)V\text{}\)