《DeepChain: Auditable and Privacy-Preserving Deep Learning with Blockchain-based Incentive》论文笔记-526互联

本文的研究背景：

在各种机器学习任务中，深度学习可以实现比传统机器学习算法更高的精度。最近，保护隐私的深度学习引起了信息安全界的极大关注，其中训练数据和训练模型都不会被暴露。联合学习是一种流行的学习机制，其中多方将局部梯度上传到服务器，服务器使用收集的梯度更新模型参数。然而，在联合学习中存在许多被忽视的安全问题，例如，参与者在梯度收集或参数更新中可能表现不正确，服务器也可能是恶意的。

本文的研究工作：

在本文中，我们提出了一个安全和公平的分布式深度学习框架DeepChain来解决这些问题。DeepChain提供了一种基于区块链的价值驱动激励机制，以迫使参与者正确行事。同时，DeepChain保证每个参与者的数据隐私，并为整个培训过程提供可审计性。我们实现了一个DeepChain的原型，并在不同设置的真实数据集上进行了实验，结果表明我们的DeepChain是有前景的。

知识科普：

1、为了实现更高的精度，必须向深度学习模型提供大量数据，从而导致过高的计算开销。然而，这个问题可以通过采用近年来广泛研究的分布式深度学习技术来解决。不幸的是，与传统的独立深度学习相比，在分布式深度学习的背景下，隐私问题恶化。

2、即使训练数据被分开存储，联合学习框架通常无法保护训练数据的隐私。例如，一些研究人员表明，中间梯度可用于推断有关训练数据的重要信息[17]，[18]。

3、Phong等人提出使用同态加密技术来保护训练数据的隐私免受好奇的参数服务器的攻击。他们的方案的缺点是，他们认为合作参与者是诚实的，但不好奇，因此，在一些参与者好奇的情况下，他们的方案可能会失败。为了防止好奇的参与者，Bonawitz等人[14]采用了秘密共享和对称加密机制来确保参与者梯度的机密性。他们假设（1）参与者和参数服务器根本不能串通，（2）纯文本中的聚合梯度什么都没有显示。

4、本文提出的观点：

（1）分布式深度学习框架不仅要保证梯度的机密性，还要保证梯度收集和参数更新的正确性；现有工作普遍考虑来自好奇的参数服务器的隐私威胁，忽略了梯度收集和参数更新中的不诚实行为可能会破坏协同训练过程的其他安全威胁。

（2）在现实场景中，不仅要确保数据隐私，还要为分布式深度学习引入一些激励机制，以便更多的各方能够积极参与合作培训。