SVRG

[机器学习] 2. 随机方差缩减梯度下降 SVRG

ML Theory 太魔怔了!!!!! 接上文,GD 有 \(\frac 1T\) 的收敛速率而 SGD 只有 \(\frac 1{\sqrt T}\) 的收敛速率。有许多种方法可以加速 SGD 的收敛速度。有一类算法是通过让方差呈递减趋势下降,最终以与 GD 同阶的速度收敛(凸与 \(L\)-平滑 ......
方差 梯度 机器 SVRG

感性理解梯度下降 GD、随机梯度下降 SGD 和 SVRG

ML Theory 太魔怔了!!!!! 从微积分课上我们学到 对一个 \(\mathscr C^2\) 函数,其二阶泰勒展开的皮亚诺余项形式 \[f(\bm w') = f(\bm w) + \langle \nabla f(\bm w), \bm w' - \bm w\rangle + o(\|\ ......
梯度 感性 SVRG SGD
共2篇  :1/1页 首页上一页1下一页尾页