【流行前沿】DRAG Divergence-based Adaptive Aggregation in Federated learning on Non-IID Data

发布时间 2023-09-27 16:38:21作者: 木坑

今天再分享一篇9月的联邦学习领域处理异构数据分布的文章。看挂名是复旦的王昕,总的来说只能算是踏实的工作,但是新意上确实不太够。

文章的主要处理对象是解决异构数据在联邦训练中的client-drift问题,当然与很多相似论文一样,也将这个方法迁移到了拜占庭攻击的防范上。不过这个robustness仅通过仿真进行了呈现,没有理论上的分析。

文章的核心思想是用reference direction来对异构数据下聚合的梯度进行校正。那么着重要解决的就是以下两个问题:

  1. 如何在每一轮中计算reference direction?
    首先为了保证reference direction的连续性,这篇文章依然采用了老生常谈的衰减的方法,也就是\((1-\alpha)\mathbf{r}^{t-1}+\alpha\Delta^{t-1}\)。然后再更新\(\Delta^{t-1}\)的时候,文章采用的思想是先根据原有的\(\mathbf{r}\)来修正梯度向量,然后利用修正后的梯度向量直接聚合,也就是

    \[\mathbf{v}_{m}^{t}=(1-\lambda_{m}^{t})\mathbf{g}_{m}^{t}+{\frac{\lambda_{m}^{t}\|\mathbf{g}_{m}^{t}\|}{\|\mathbf{r}^{t}\|}}\mathbf{r}^{t} \\ \Delta^t=\frac{1}{S}\sum_{m\in\mathcal{S}^t}\mathbf{v}_m^t \]

    这样做其实有一点反馈的感觉在里面。
  2. 如何根据得到的reference direction对聚合向量进行修正?
    在衡量离散程度大小的时候,文章用的是用户梯度与\(\mathbf{r}\)的夹角大小。修正的时候也用的是基于夹角的修改。

其他部分似乎没有可圈可点之处了,尤其是收敛性分析部分,在角度上并没有给出什么新的东西,一些放缩看起来都是比较粗糙的,直接和Assumption联系了起来。

这篇文章的可以借鉴的地方在于对异构数据的处理综述上,提出了如下分类:

  • variance reduction
  • control variates
  • gradient constraints

前两个我都不是太熟悉,之后需要根据这个综述好好完善一下。