EFFICIENTLY

SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION论文阅读笔记

Intro 在训练集上最小化损失很可能导致泛化性低，因为当今模型的过参数化会导致training loss的landscape异常复杂且非凸，包含很多local/global minima，因此优化器的选择至关重要。loss landscape的几何性质（特别是minima的flatness）与泛化 ......

SHARPNESS-AWARE GENERALIZATION MINIMIZATION EFFICIENTLY SHARPNESS更新时间 2024-01-13

共1篇 :1/1页 首页上一页1下一页尾页

526互联

EFFICIENTLY

SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION论文阅读笔记