【五期邹昱夫】CCF-A（NeurIPS'21）Adversarial Neuron Pruning Purifies Backdoored Deep Models-526互联

"Wu, Dongxian, and Yisen Wang. "Adversarial neuron pruning purifies backdoored deep models." Advances in Neural Information Processing Systems 34 (2021): 16913-16925."

本文提出对抗神经元修剪（ANP），通过修剪一些敏感的神经元，以净化模型中被注入的后门。对神经元进行逆向扰动，具有后门相关性的神经元会在干净样本上也呈现后门行为，并且比正常神经元更容易输出错误分类。扰动方法是对神经元的权重和偏置值分别增加一个很小的倍数。修剪时只设置权重为0，偏执值不变以维持干净样本准确率。
本文的优点在于利用后门神经元对扰动敏感的特点进行防御，并且只使用修剪的方法进行防御，达成了较好的防御效果。
本文的缺点在于后门防御的算力成本较高，文中提到的1%的样本数量实现防御需要在2000次迭代测试。并且后门攻击如果是感染整个神经网络的神经元，该方法效果存疑。

2023年6月27日

Adversarial

adversarial backdoored purifies neurips

fine-pruning backdooring defending networks

neurips

spotlight模型neurips标签

gradients neurips leakage ccf-a

neurips论文2023 lab