【流行前沿】DRAG Divergence-based Adaptive Aggregation in Federated learning on Non-IID Data-526互联

今天再分享一篇9月的联邦学习领域处理异构数据分布的文章。看挂名是复旦的王昕，总的来说只能算是踏实的工作，但是新意上确实不太够。

文章的主要处理对象是解决异构数据在联邦训练中的client-drift问题，当然与很多相似论文一样，也将这个方法迁移到了拜占庭攻击的防范上。不过这个robustness仅通过仿真进行了呈现，没有理论上的分析。

文章的核心思想是用reference direction来对异构数据下聚合的梯度进行校正。那么着重要解决的就是以下两个问题：

如何在每一轮中计算reference direction？
首先为了保证reference direction的连续性，这篇文章依然采用了老生常谈的衰减的方法，也就是\((1-\alpha)\mathbf{r}^{t-1}+\alpha\Delta^{t-1}\)。然后再更新\(\Delta^{t-1}\)的时候，文章采用的思想是先根据原有的\(\mathbf{r}\)来修正梯度向量，然后利用修正后的梯度向量直接聚合，也就是
\[\mathbf{v}_{m}^{t}=(1-\lambda_{m}^{t})\mathbf{g}_{m}^{t}+{\frac{\lambda_{m}^{t}\|\mathbf{g}_{m}^{t}\|}{\|\mathbf{r}^{t}\|}}\mathbf{r}^{t} \\ \Delta^t=\frac{1}{S}\sum_{m\in\mathcal{S}^t}\mathbf{v}_m^t \]
这样做其实有一点反馈的感觉在里面。
如何根据得到的reference direction对聚合向量进行修正？
在衡量离散程度大小的时候，文章用的是用户梯度与\(\mathbf{r}\)的夹角大小。修正的时候也用的是基于夹角的修改。

其他部分似乎没有可圈可点之处了，尤其是收敛性分析部分，在角度上并没有给出什么新的东西，一些放缩看起来都是比较粗糙的，直接和Assumption联系了起来。

这篇文章的可以借鉴的地方在于对异构数据的处理综述上，提出了如下分类：