Federated Learning005

发布时间 2023-11-27 23:13:41作者: Xmasker^_^

联邦学习——笔记005

2023.11.27周一,最近支原体肺炎高发。研一上课结了一部分,赶紧看论文。

时隔大半年,今天开始学习联邦学习的大综述————Advances and Open Problems in Federated Learning(联邦学习中的最新进展和开放问题)

Introduction

联邦学习(FL)是一种机器学习设置,其中许多客户端(例如移动设备或整个组织)在中央服务器(例如服务提供商)的编排下协作训练一个模型,同时保持训练数据去中心化。体现了集中收集原则数据最小化原则,缓解很多系统性的隐私风险和开销。

McMahan在2016年引入联邦学习的概念:“我们把我们的方法称为联邦学习,因为学习任务是由参与的设备(我们称为客户端)的松散联盟解决的,这些设备由一个中央服务器协调。” 因此从定义中就有一系列挑战:在通信带宽有限的大量不可靠设备上对非平衡和非IID(独立同分布)的数据进行训练

提出联邦学习的概念之前就有这种目标:在不暴露数据的情况下从数据拥有者那里分析和学习数据的分布。然而,即使自从引入了联邦学习这一术语以来,没有任何一项单独的工作可以直接解决FL的全部挑战。因此联邦学习这一术语为一组特征、约束和挑战提供了一个方便的简称,这些挑战经常出现在在离散数据上应用ML的场景中,在这种场景中隐私是最重要的。

联邦学习涉及到的技术不仅有机器学习,还包括分布式优化密码学安全差分隐私公平性压缩感知系统信息论统计学等等。本篇论文的工作目标之一是强调将这些领域的技术可能结合起来的方式,并依此提出有趣的可能性和新的挑战。

联邦学习最开始是在移动和边缘设备(海量)场景中,后来逐渐应用在其他场景,比如数量比较少的可信参与方(几个组织)。因此根据这些变化,我们给出了联邦学习更宽泛的定义
Federated learning is a machine learning setting where multiple entities (clients) collaborate in solving a machine learning problem, under the coordination of a central server or service provider. Each client’s raw data is stored locally and not exchanged or transferred; instead, focused updates intended for immediate aggregation are used to achieve the learning objective.
联邦学习是一种机器学习环境,在这种环境中,多个实体(客户端)在中央服务器或服务提供商的协调下,合作解决一个机器学习问题。每个客户端的原始数据都存储在本地,不会进行交换或传输;相反,为了实现机器学习目标,会使用旨在即时聚合的集中更新。

注:集中更新是指范围狭窄的更新,以包含未完成特定学习任务所需的最小信息;在数据最小化服务中,尽早执行聚合。我们注意到,这个定义将联邦学习与2.1节中讨论的完全分散的(点对点)学习技术区分开来。

尽管对隐私保护的数据分析已经被研究了50多年,但只有在过去的十年中,解决方案才被广泛地大规模部署(如[177,154])。跨设备联邦学习联邦数据分析现在正在应用于消费数字产品中。谷歌在Gboard移动键盘[376,222,491,112,383]、Pixel手机[14]和安卓信息[439]中广泛使用了联邦学习功能。虽然谷歌开创了跨设备FL,但对这种设置的兴趣现在更加广泛,例如:苹果在iOS 13 [25]中使用跨设备FL,用于快速型键盘和“嘿Siri”[26]的声音分类器;ai正在为医学研究[149]开发跨设备FL解决方案,Snips已经探索了跨设备FL的热字检测[298]

跨机构联邦学习的应用也已在无数领域被提出或描述,包括再保险[476]的财务风险预测、药品发现[179]、电子健康记录挖掘[184]、医疗数据分割[15,139]和智能制造[354]