近年来，随着计算硬件和算法技术的快速进步，人工智能（AI）在图像识别、教育、自动驾驶、金融、医疗诊断等广泛领域展现出明显优于人类的优势。然而，基于人工智能的系统在从最初的数据收集和准备到训练、推理和最终部署的整个过程中普遍容易受到各种安全威胁。在基于人工智能的系统中，数据收集和预处理阶段分别容易受到传感器欺骗攻击和缩放攻击，而模型的训练和推理阶段分别容易受到中毒攻击和对抗性攻击。针对这些基于人工智能的系统所面临的严峻安全威胁，在本文中，我们回顾了人工智能安全问题面临的挑战和最新研究进展，以描绘出人工智能安全的总体蓝图。更具体地说，我们首先以基于AI的系统的生命周期为指导，介绍每个阶段出现的安全威胁，然后详细总结相应的对策。最后，还将讨论人工智能安全问题未来的一些挑战和机遇。

1简介

人工智能(AI)在1956年夏天由约翰·麦卡锡(JohnMcCarthy)召集的达特茅斯会议上首次提出，标志着人工智能学科的诞生。然而，直到2006年，随着Hinton等人提出深度学习概念。，迎来了人工智能应用的新一波浪潮，这是由快速增长的计算资源、更高效算法的出现以及互联网上数据的爆炸式增长所促成的。

到目前为止，人工智能技术已经彻底改变了我们日常生活的许多方面，它使我们能够重新思考如何整合信息、分析数据和使用由此产生的见解来改进整体决策过程。为在人工智能领域走在前列，国家制定了人工智能重大战略规划。例如，美国白宫于2016年发布了《国家人工智能研发战略计划》，而DARPA则于2018年9月宣布未来将投资近20亿美元开发下一代人工智能技术。此外，中国国务院于2017年发布了《新一代人工智能发展规划》。如今，人工智能发展水平已成为各国综合国力的重要体现。

然而，人工智能的发展必然有两个方面，其安全性正成为一个重要问题，尤其是在对安全敏感的基础设施中。据美国领先的科技博客Gizmodo报道，从2000年到2013年，有144人在机器人辅助外科医生的手术中死亡。据统计，亚马逊在2014-2017年使用的基于人工智能的招聘工具更倾向于招聘男性，这引发了人们对人工智能公平性的担忧。2018年3月，Uber的自动驾驶汽车事故引发了对AI安全的担忧。此外，Menon等人提出的图像识别算法pulse。再次引发了巨大争议，有人用脉冲算法还原了奥巴马的模糊形象，结果却还原成了一个白人。根据The Register，一个基于GPT-3的法国聊天机器人建议模型患者自杀。在自动驾驶、医疗保健和金融等高风险领域，一个非常微小的错误或漏洞最终可能导致数百万或数十亿美元的损失，甚至有时甚至是人的生命。

虽然人工智能系统通常是“聪明的”，但它们也“脆弱”，这意味着它们很容易被愚弄或攻击。我们讨论了涉及广泛典型AI应用的安全威胁和对策，例如图像分类、语音识别、自然语言处理(NLP)，以及许多其他场景。此外，我们以AI系统生命周期为线索，探索分析AI生命周期各阶段可能存在的安全威胁及其防御措施。

图 1 人工智能系统攻防策略总体框架。

这项工作中讨论的整体框架如图1所示。值得一提的是，MITRE、微软和其他11个组织联合发布了Adversarial Machine Learning(ML)ThreatMatrix，这是一个ATT&CK风格的框架，旨在帮助安全分析师快速定位并修复对ML系统的攻击。对抗性ML威胁矩阵是针对ML系统攻击的知识库的首次尝试，目前正处于初步开发阶段。它包含特定于ML系统的攻击技术以及适用于ML和非ML系统的技术。我们的工作可以丰富矩阵，特别是对于ML系统攻击。由于威胁矩阵仍在改进中，其攻击向量尚未包含最新的攻击技术，例如传感器欺骗攻击和图像缩放攻击(ISA)。此外，我们的框架针对不同阶段的安全问题给出了相应的对策，可以作为MITRE未来补充防御技术的参考。具体来说，人工智能系统的生命周期一般可以分为五个阶段：数据收集、数据预处理、模型训练、模型推理和系统集成，每个阶段都容易受到不同的安全威胁。

在数据收集阶段，安全风险与收集数据的方式密切相关。数据采集方法主要有两种类型：基于软件的采集和基于硬件的采集。对基于硬件的收集方法的一种代表性攻击是传感器欺骗攻击，攻击者通过访问或篡改传感器提供的数据来执行传感器攻击。基于软件的数据收集方法主要是指收集数字数据，其安全风险包括数据偏差、虚假数据和数据泄露。
数据预处理阶段。目前注意，缩放攻击通常针对图像域，其中图像数据可能在预处理步骤中被篡改，从而成为潜在的攻击面。具体来说，对于阴险的ISA，攻击者篡改图像并利用人机之间的（视觉）认知差异来实现欺骗和逃避攻击，甚至可以绕过仔细的人工检查。与依赖模型的对抗性示例攻击不同，ISA仅针对数据预处理步骤。攻击者利用\(l_p-norm\)来控制目标图像与攻击图像之间的距离，以提高攻击成功率。数据随机化、质量监控、图像重建是击败ISA的主要技术。
在模型训练阶段，投毒攻击通过将有毒数据注入模型从而篡改训练模型来影响训练数据和训练过程。一般来说，投毒攻击主要是指数据中毒攻击，分为可用性攻击和完整性攻击两类。对于可用性攻击，通常根据模型的梯度信息找到中毒点，或者使用辅助网络自动生成中毒数据。可用性攻击会降低模型对任何输入的整体性能。相反，完整性攻击不会影响正常输入的分类，只会影响那些攻击者选择的输入。后门攻击和清洁标签中毒攻击是代表性的完整性攻击。现有的防御中毒攻击的策略包括数据清理、稳健性训练和认证防御。
在推理阶段，规避攻击通常在模型推理阶段执行，以通过制作对抗性示例来降低或干扰模型的预测性能，这通常是通过对输入进行微小且语义一致的更改，但不更改目标模型。此类攻击已在图像分类、语音识别、NLP和恶意软件检测中得到广泛研究。近年来出现了大量的对抗样本生成策略，如经典的快速梯度符号法（FGSM）、基于雅可比行列式的显着图攻击（JSMA）、DeepFool等。开发，主要通过优化搜索或基于梯度的信息来实现。相应地，已经交互设计了对策，包括基于模型的策略，如蒸馏、检测器、网络验证，以及基于数据的措施，如对抗训练、数据随机化、和输入重建。

在人工智能系统集成阶段，安全问题变得相当复杂。在实际应用场景中，人工智能应用的系统集成，不仅涉及人工智能技术本身的安全风险，还涉及系统、网络、软硬件的结合点问题。这些威胁包括AI数据和模型的机密性、代码漏洞、AI偏见等。人工智能的安全需要各领域研究人员的共同努力。

总之，人工智能的安全威胁已经成为人工智能发展和应用中亟待解决的问题，尤其是对于安全敏感的场景。根据攻击所针对的人工智能系统的不同阶段，本文阐述了相应的漏洞及其相应的对策。

2 数据收集相关的攻击和防御

2.1 概述

数据是人工智能快速发展的原动力。数据类型包括但不限于：硬件设备（如传感器）采集的图像和音频，计算机系统自动生成的文档和日志，以及那些（如文本、图像、视频、轨迹）来自我们的互联网活动。此外，数据采集涉及的安全问题并非AI独有，任何需要数据采集的行业本质上都存在。

林等总结了与网络安全相关的数据收集的要求、目标和技术。他们认为数据收集需要满足以下安全目标：机密性、完整性、不可否认性、身份验证、隐私保护和自我保护。然而，他们认识到大多数现有数据收集技术满足功能要求但通常会忽视安全目标。尽管对数据收集方法的分类缺乏共识。一般可分为基于软件的数据采集和基于硬件的数据采集。基于软件的数据采集是在数字世界中，而基于硬件的数据采集是将物理世界中的物理量转换为数字形式的关键点。表1总结了与数据收集相关的攻击和防御。

方法	安全问题	典型场景	潜在的防御
基于软件的数据	数据采集	有偏见的数据	社交网络、推荐系统	检测过滤，规范化管理
	虚假数据	物联网、社交网络	检测和过滤
	数据泄露	涵盖所需数据收集的场景	加密或身份验证
基于硬件的数据收集	传感器欺骗攻击	物联网	输入滤波，传感器增强和基带偏移

2.1.1 基于软件的数据收集

数据收集器使用软件程序工具来收集数据（例如，内容的爬虫或“抓取器”）。基于软件的数据采集需要抓包应用程序、抓包库、操作系统、设备驱动程序和网卡共同完成数据采集过程。从理论上讲，过程中任何一个环节出现问题都会影响数据采集的质量。我们将以在线社交网络为例，讨论基于软件的数据收集方法所带来的安全风险及其相应的防御措施。数据偏差和虚假数据是社交网络数据收集面临的代表性安全风险。

2.1.2 基于硬件的数据收集

硬件相关的数据采集设备包括传感器、硬件探头、移动终端、数据采集生成卡、内联分路器、网卡、移动终端等。每种数据收集方法的潜在威胁因硬件的底层设计原理而异。传感器是使用最广泛的数据收集工具，具有高效和灵活的优势。我们以传感器数据采集的安全威胁来说明基于硬件的数据采集方法的一些典型安全风险。

2.2 攻击

2.2.1 数据偏差

人工智能对训练数据非常敏感。数据源选择和数据准备可能会引入偏差。此外，社交平台不鼓励第三方收集数据并对应用程序编程接口(API)施加许多限制。因此，数据收集者只能收集有限的数据或与平台呈现给普通用户的数据不同的数据。

人工智能的不完全学习偏差引发了各种担忧，例如性别歧视、种族主义等。例如，亚马逊人力资源部在2014年至2017年间使用了一款支持AI的招聘软件。结果，亚马逊雇佣了更多的男性申请人，同时降低了女性申请人的简历。Twitter上有人使用PULSE算法将奥巴马的输入模糊图像恢复为具有倾斜的白色特征的新面孔。虽然不是故意的，但人工智能的偏见会破坏人工智能的完整性。我们需要改进数据收集标准并开发工具来诊断和减轻偏见。

2.2.2 虚假数据

虚假数据问题并不是AI领域独有的挑战。万达等创新了卷积神经网络的池化功能。此外，他们还提出了一种新的动态深度神经网络(DNN)模型算法来检测在线社交网络中的虚假个人资料。科布等人讨论了数据收集应用程序开放数据工具包(ODK)的数据收集过程中的安全挑战。他们探究了IDK数据收集过程中的假数据来源及其防御措施。

2.2.3 数据泄露

数据泄露是一个长期存在的问题。斯威尼等人首先发现只有三个信息字段（地点、性别、出生日期）可以唯一标识一半的美国人口。值得注意的是，数据泄露不仅是数据收集阶段特有的问题，也可能发生在模型的训练和推理阶段。

2.2.4 传感器欺骗攻击

从物理世界中产生的数据需要使用相关传感器元件进行数字化和收集，以用于后续的模型训练和推理。传感器无处不在地集成到智能穿戴设备、自动驾驶汽车和激光雷达（LIDAR）中，它们是负责数据测量和收集的底层核心组件。攻击者可以利用传感器的物理特性来构建恶意样本来欺骗传感器来干扰数据收集。根据目标渠道，Shin等人确定了传感器欺骗攻击的三个向量：常规信道、传输信道和边信道。Shoukry、Yasser等人提出了一种通过常规渠道进行的非侵入式欺骗攻击。为了误导传感器产生恶意速度，攻击者首先阻断左侧旋转齿轮产生的磁场。检测到错误速度的恶意执行器产生的磁场随后会传输到防抱死制动传感器(ABS)，从而导致传感器欺骗攻击。FooKune等人通过将后门耦合对电路与模拟传感器相结合来执行低功率电磁干扰（EMI）攻击，以执行恶意信号注入。音频信号由麦克风拾取。然后输入信号被放大，EMI通过放大器注入。之后，它们被传输到模数转换器，随后传输到微处理器，最终禁用电子元件。Son等攻击无人驾驶飞行器(UAV)的事实是，陀螺仪的输出会随着噪声在其自身的共振频率下波动。在陀螺仪的谐振频率下，注入特定的噪声会使陀螺仪产生谐振，从而降低精度并干扰无人机的运行。

2.3 防御

数据收集可以通过在硬件安全、软件安全和网络安全方面采用数据安全保护策略来减轻安全威胁。有各种各样的数据收集保护策略。此外，保护策略因场景而异。受数据安全策略的启发，我们建议以下三类作为数据收集保护措施。

2.3.1 检测与过滤

Hinnefeld等人调查了AI偏见并设计了一系列策略（例如，优化预处理、拒绝选项分类、学习公平表示和对抗性去权重）来检测和减轻AI偏见。为了减轻数据泄露的威胁，Birnbaum等人提出了一种无监督异常值检测技术来检测伪造的调查数据，并说明了使用自动数据质量监控的必要性。在硬件数据收集方面，Zhang等人针对不同的攻击锚点进行了基于软件和硬件的防御，他们发现传感器增强和基带偏移可用于防御传感器欺骗攻击。就麦克风而言，在放大麦克风振幅的同时加入低通滤波器可以抑制20kHz以上的语音信号，这意味着人类“听不见”的语音命令将被过滤掉。伊格尼亚托维奇等证明传统的迭代过滤算法聚合多个数据源进行信任评估容易受到共谋攻击，因此他们提出了一种具有更好收敛性和更强鲁棒性的迭代过滤技术来保护传感器网络。我们可以丢弃由缺乏可信度和可信度的收集工具捕获的数据。此外，攻击者可以通过记录和重放用户给出的命令来进行欺骗攻击。虽然过滤是一种方便有效的防御措施，但我们需要警惕引入数据偏差的过滤规则。

硬件数据源收集的时候注意问题：共谋攻击、伪造数据检测

2.3.2 数据来源和认证

可以采用适当的传感器信任机制来禁用从不受信任的设备或未经授权的设备收集的数据。首先，在通过可信度评估聚合数据之前，应检查传感器节点的可信度。另一种常用的安全机制是身份验证。例如，Shoukry等人建立了一种物理质询-响应认证机制PyCRA。，其中传感器使用物理探头持续主动地感知周围环境。通过分析主动响应来检测被操纵的模拟信号以防御恶意传感器攻击来实现身份验证机制。

2.3.3 规范管理

人为滥用也会影响采集数据的质量，这就需要对相关人员进行管理和培训。因此，我们需要检查数据收集的安全要求（机密性、完整性、身份验证等），并制定相应的管理程序来保护数据收集。此外，建立适当的激励机制可以鼓励数据提供者更加诚实地分享他们的数据，这有利于数据收集的质量。

3 扩展攻击和防御

3.1 概述

用于训练模型的图像数据的大小通常是固定的。例如，由于图像预处理步骤，输入模型的图像通常大小为224×224或32×32，比原始图像小。例如，在数据预处理阶段，需要缩放图像以匹配模型输入大小。图像缩放生成新图像，其像素分辨率比原始图像低/高，同时保留原始视觉特征并按比例缩放。然而，在缩放过程中，攻击者可以滥用缩放算法调整像素级信息来制作伪装图像，从而导致图像缩放前后视觉语义发生巨大变化。如图2所示，Xiao等人。根据“羊”图像制作了攻击图像，在视觉上将“狼”伪装成“羊”。一旦图像被降采样或调整大小，真正的“狼”就会显露出来。

图 2. 缩放攻击示例

此外，Xiao等人验证了对微软Azure、阿里云、腾讯和百度图像分类服务等多个基于云的图像服务器的攻击的有效性。例如，百度云服务器将图像识别为“狼”的置信度很高。值得注意的是，图像缩放攻击 (ISA)非常强大，可以不受不同模型的影响，只要它们使用相同的重新缩放函数来适应相同的模型输入大小。表2概述了数据预处理阶段的ISA和防御。

表 2. 图像缩放攻击和防御

3.2 攻击

Xiao等首先通过利用插值算法的逆来揭示图像缩放攻击 (ISA)。如图3所示，首先将扰动矩阵\(\Delta_1\)添加到原始图像“src img”，例如数字8，以生成嵌入目标图像的攻击图像“attack img”，例如数字6。而\(\Delta_2\)是目标图像“target img”和输出图像“out img”之间的差异。最后，在\(\Delta_1\)和\(\Delta_2\)的约束下，基于插值算法生成最优攻击图像。一旦对攻击图像常规执行图像缩放操作，模型就会看到目标图像，例如数字6，从而将其识别为攻击者的目标6，这是一种源到目标攻击。即使部署的系统对攻击者来说是黑盒，这种攻击仍然有效，因为通过例如穷举法推断所需的参数（例如输入图像大小或/和该模型使用的底层缩放函数）相对容易试验。这是因为常用类型的输入图像大小或/和重新缩放功能受到限制。

图3.自动攻击图像制作

ISA的根本原因来自下采样和卷积的相互作用，Quiring等人从理论上分析了这一点。从信号处理的角度来看。他们对三个ML成像库（OpenCV、TensorFlow和Pillow）进行了实验，以确认这种相互作用的存在。通过使攻击图像与颜色直方图中的缩放图像一致，Quiring等人引入了一种新的自适应ISA，通过检查颜色直方图降低了ISA检测的成功率。

我可以实现一下ISA攻击对自己设计的模型的攻击效果

此外，作者将ISA与中毒攻击相结合，成功隐藏了后门攻击的触发因素。如图4所示，在数据预处理之前使用ISA技术隐藏触发器，确保带有触发器的攻击图像的内容和标签在视觉上保持一致，从而绕过人工检查中毒图像。一旦执行了缩减操作（在大多数情况下是标准步骤），触发器就会立即暴露出来。这种通过图像缩放的中毒样本保证了触发器的隐蔽性，达到了后门攻击的效果。

图4.清洁标签中毒攻击

3.3 防御

奎林等人开发了一种图像重建方法来防御ISA。选择性中值滤波器和随机滤波器在他们的工作中被用来识别在缩放过程中被改变的像素点。然后图像中的剩余像素用于重建修改后的内容，避免修改原始神经网络，而是简单地结合现有图像库来防御缩放攻击。

图像重建通过下采样频率和图像缩放之间的关系来防止ISA，但会降低输入图像的质量。因此，如图5所示，Kim等人将缩放、过滤和隐写分析集成到一个缩放攻击检测框架——去伪装中：

首先对输入图像进行缩小，然后放大操作以构造“复制”图像，然后比较输入图像与其“复制”图像前后颜色直方图上图像的相似度：攻击者在输入图像中注入的像素预计会从归因于放大的“副本”中删除。
过滤检测使用过滤器对图像进行过滤。
怀疑攻击图像的样本通过离散傅立叶变换(DFT)变换到二维空间，并使用隐写分析检测由ISA嵌入的扰动像素。随后，使用均方误差（MSE）、结构相似性指数（SSIM）和中心谱点（CSP）指标来量化前后的相似性，并独立推导每种检测方法的检测边界。
执行集成技术来识别传入图像是否为攻击图像。

图5.伪装概述

Quiring等人消除了攻击效果但没有具体检测输入图像是否为攻击图像。然而，Kim等人检测到恶意攻击的存在并拒绝攻击图像。如果需要跟踪任何攻击，则首选检测。此外，一旦输入被检测为对手，就可以通过重建攻击图像来获得正确的预测，从而使进一步消除攻击影响，这可以减轻中图像重建引起的质量下降。

4 数据中毒攻击与防御

4.1 概述

人工智能系统是根据大量精选数据进行训练的。然而，数据质量直接影响训练模型的性能。在这种情况下，攻击者可以毒化训练集来操纵模型的推理行为。从模型和攻击目标来看，中毒攻击可分为两类：可用性攻击和完整性攻击。

可用性攻击被称为拒绝服务攻击，其攻击目标是最大化模型的整体损失并导致模型性能下降和错误分类。例如，社交媒体聊天机器人拥有丰富的语料库，并通过与人类的互动进行扩展。当攻击者用一些没有上下文相关性的语句影响聊天机器人时，聊天机器人将不会进行正常的逻辑聊天。
完整性攻击是攻击者在不影响模型对干净样本的分类的情况下，通过精心设计中毒数据来实现有针对性的破坏。最具代表性的完整性攻击是后门攻击。后门攻击只会错误分类包含特定（显式或什至不显式）触发器的输入，并且后门仍然可以保留在下游迁移学习任务中。作为后门攻击的一个例子，在恶意软件检测中，攻击者将包含特定字符串的文件标记为良性数据，并将其放入检测器的训练中。在训练和部署模型后，攻击者只需将特定字符串添加到恶意软件中即可逃避检测，因为任何具有特定字符串作为触发器的恶意软件都将与良性类相关联。

根据攻击行为和分类结果的不同，中毒攻击分为Error-Specific攻击和Error-Generic攻击。假设有一个带有真实标签的干净样本。攻击者构造一个中毒样本集加入到模型M的训练集中，导致模型M对C进行错误分类，即如果是攻击者针对的特定类，则它是特定于错误的中毒攻击。然而，如果是除之外的任何类，则它是错误通用中毒攻击。如图6(a)所示，实线表示正常情况下的二元分类器。假设在训练集中添加了少量的毒数据。在这种情况下，决策边界将发生偏移，从而产生由虚线分隔的分类效果。因此，正常模型和中毒模型相交形成的封闭区域内的实例将在推理阶段被错误分类。如图6(b)所示，A类实例将被错误分类为B类。

图6.中毒攻击前后分类模型的变化

4.2 攻击

接下来，我们将详细介绍各种中毒攻击方法，我们也在表3中进行了总结。

表3.数据中毒攻击方法

4.2.1 可用性攻击

可用性攻击称为拒绝服务攻击。代表性的可用性攻击包括基于梯度的攻击和基于生成对抗网络（GAN）的攻击。具有中毒的可用性攻击可以正式表示为双层优化问题。内部优化是中毒训练集上的模型训练问题。外层优化是最大化攻击者的目标\(\mathbb{A}\)，通常是内层优化得到的中毒模型上干净数据集的分类损失函数\(\mathbb{L}\)。正式表示如下：

攻击者只能访问数据源的代理数据集\(\hat{D}\)。\(\hat{D}\)被分为两个不相交的子集\(\hat{D}_{tr}\)和\(\hat{D}_{val}\)。使用\(\hat{D}_{tr}\)和中毒样本集训练模型得到中毒模型参数。\(\hat{D}_{val}\)用于通过一个简单的损失函数来测试代理模型中对clean dataset的分类效果\(L(\hat{D}_{val},\hat{w})\)也就是说，中毒样本对干净数据的影响是由参数\(\hat{w}\)决定的。

基于梯度的攻击。基于梯度的中毒攻击的主要挑战是计算攻击目标相对于中毒点的梯度\(\nabla_{x_c}A\)。一般来说，基于梯度的上升和反向梯度优化都是通过计算攻击目标相对于每个中毒点的梯度来获得优化的中毒点\(x\)。
基于梯度的上升。梯度上升中毒攻击技术通过采用梯度上升方法进行优化。假设攻击函数\(A(D_c',\theta)\)对于参数\(w\)和输入\(x\)是可微的，所需的梯度使用链式法则计算如下：\(\nabla_{x}A=\nabla_{x}L+\frac{\partial w^T}{\partial x} \nabla_{w}L\)。其中\(\frac{\partial w}{\partial x}\)表示分类器参数对中毒数据的隐藏依赖性。梅等提出了一个隐式方程，它使用Karush–Kuhn–Tucker(KKT)条件而不是内部优化问题来推导梯度。通过在中毒点进行微分，可以解决梯度问题。然后，将一个两层优化问题转化为一个单层约束优化问题。虽然简化了优化，但梯度计算的复杂性使其仅适用于有限数量的学习算法。
反向梯度优化。Muñoz-González等人的反向梯度优化。是针对深度学习框架的第一次中毒攻击。他们通过反转学习过程来更新参数。内部优化问题被学习迭代所取代。外部优化问题中所需的梯度是通过内部优化问题中的不完整参数获得的。他们假设一次优化一个中毒点\(x_c\)。在内部优化问题中，总共执行了\(T\)次迭代。这样就得到了参数\(w_T\)。链式法则用于计算更新中毒点的梯度。
基于GAN的攻击。杨等设计了一个受GAN启发的生成器，以加速有毒样本的产生。生成器首先从干净的训练集\(D_t\)中随机选择一个样本\(x_i\)来产生一个有毒样本。然后，鉴别器使用生成器生成的中毒数据来计算干净数据的损失。随后，生成器使用鉴别器提供的梯度和损失的新加权函数更新中毒数据。该过程不断迭代，直到达到终止条件。图7说明了基于GAN的中毒方法的概述。目标模型充当鉴别器，而生成器是一个额外的模型，旨在生成中毒数据\(x_p\)。从中获得的中毒数据第\((t-1)\)次更新被输入到生成器中，获取在第\(t\)轮迭代中更新的中毒数据\(x_p(t)\)。然后，\(x_p(t)\)被注入判别器和加权梯度，计算\(f(L_i^{(p)}，gradient)\)更新目标模型。每次迭代只需要对目标模型进行一次更新，可以大大减少中毒数据生成的时间。

图7.基于GAN的中毒方法概述

4.2.2 完整性攻击

完整性攻击可以在不影响模型对正常样本分类的情况下，实现针对性的破坏。后门攻击是最具代表性的完整性攻击。

后门攻击。后门攻击不会影响干净数据在后门模型中分类的结果，但会产生与包含由攻击者秘密控制的特定触发器的输入的预期结果的偏差。后门攻击是一种典型的完整性中毒攻击，通过在清洁样本中添加触发器来创建毒样本，毒样本的标签通常被修改为目标标签。值得注意的是，触发器，例如它的位置、形状或颜色，可以在攻击者的任意控制之下。对于输入x，它的中毒对应物
通过冲压触发器获得。以图像域为例，m代表触发位置。表示触发颜色、图案等信息。最终的触发优化问题最小化特征空间中两个模型的潜在表示的差异，可以形式化地描述为

(3)其中t表示目标攻击类，表示目标攻击类的输入。表示参数下x的输出，或者神经网络中某一层的中间输出。由于经过训练的触发器将激活模型中的某些特定神经元，因此使用来测量干净输入和添加触发器的输入的神经元激活状态的差异。常用的是MSE。顾等。提出了一种针对神经网络的后门攻击，其中每个神经元都可以被视为一个内部特征。所选神经元所在层和输出层之间的层被重新训练，以便触发器与输出层中的目标类神经元建立强连接。
特纳等人。考虑了后门攻击，其中注入的中毒样本在视觉上与标签一致。为了保持标签的一致性，他们通过后门触发幅度修改原始后门模式的像素值，使后门触发模式在视觉上不显眼。实验表明，这种方法可以生成一个不显眼的触发器，并被模型学习以实现成功的后门攻击。巴尼等人。通过破坏目标类样本数据添加后门。一旦遇到后门信号，网络就会将样本识别为目标类别。该方法允许根据不同的分类任务和目标类别选择适当的扰动。例如，对于MINIST数字分类任务，他们将基于斜率信号的后门加性扰动定义为
.m和l分别是图像的列数和行数。这种方式形成的后门更加隐蔽，攻击成功率更高。然而，它们只是破坏了目标类样本，需要提高数据中毒率才能实现高攻击成功率。

清洁标签中毒。沙法希等人。提出了清洁标签中毒攻击，该攻击保留了标签和可视化图像内容之间的一致性。简而言之，他们通过向训练集中添加中毒数据（标记为基类）来改变模型决策边界，导致中毒数据周围的干净目标实例被错误分类为基类。攻击如图8所示。首先确定目标类和基类。然后分别从目标类和基类中选择一个目标实例t和一个基实例b。中毒样本x是在-norm约束下构造的，x在视觉上类似于基类，但在特征空间表示中接近目标类。通过特征碰撞生成中毒数据公式为

(4)其中是x在模型倒数第二层的表示，称为x的特征空间表示——featurespacerepresentation。
是衡量特征空间与目标实例相似度的-范数，调节中毒样本x与原始输入空间中基类的视觉相似度。优化问题通过前向-后向分裂迭代过程解决。准确地说，第一步（向前）最小化特征空间中目标实例和中毒实例之间的距离。第二步（反向）是最小化输入空间中中毒数据与基础实例之间的距离。等式（4）之后的优化可以提供一组看起来像基类但与深度特征空间中的目标类一致的中毒图像，从而基类标签无需更改。

图8.清洁标签中毒示例

4.3 防御

数据中毒攻击将中毒数据注入训练集中，以破坏学习算法的功能。中毒数据与干净数据具有不同的特征，这意味着中毒数据可以被视为异常，从而可以使用异常检测作为防御。数据清理通常应用异常检测或模型鲁棒性训练可以用来防御数据中毒攻击。我们在表4中总结了这些防御措施。

表4.数据中毒防御方法

4.3.1 数据清理

纳尔逊等人。提出了针对垃圾邮件过滤器的数据中毒攻击的负面影响拒绝（ROIN）。如果数据对分类器有显着的负面影响，则将其视为有毒数据并从训练集中移除。尽管ROIN在某些场景下在防御数据中毒攻击方面表现出色，例如以100%的成功率识别攻击邮件，但测试训练集中的每个数据样本的成本太高。此外，当数据集小于特征数时，容易发生过拟合。Koh和Liang应用稳健统计中的影响函数来计算数据点对分类器预测的影响。Koh和Liang提出的方法能够在不重新训练模型的情况下确定每个数据项的影响——ROIN需要重新训练模型——仅使用梯度和Hession矩阵，这确保了损害性能的数据点可以被快速识别。

4.3.2 稳健训练

稳健的训练通常强烈依赖于某些特征假设。刘等人。通过改进稳健的低秩矩阵近似和稳健的主成分回归来放宽假设并实现强大的防御性能。贾吉尔斯基等人。设计了一种称为“TRIM”的对抗防御技术，通过使用修剪损失函数来计算每次迭代中的不同残差子集，以对线性回归模型进行稳健训练。通常，支持向量机(SVM)对异常值不稳健。许等。改进了相关熵引起的损失函数并构建了重新缩放的铰链损失函数以扩展SVM的鲁棒性。

4.3.3 认证防御

Steinhardt提出了一种经过认证的防御中毒攻击的方法。为采用异常排除和经验风险最小化的防御者设计了一个框架，旨在研究给定防御的整个攻击空间。假设和分别表示干净和中毒的数据集，表示分类器的参数。相应的防御是针对可行集是否依赖于中毒数据的场景而设计的。以独立于为例，他们提出了一种固定的防御方式。在迭代求解过程中，当前最差攻击点
每次都是最先找到的。然后在该攻击点的方向上更新模型以获得。最终可以找到最严重的中毒攻击数据集。最坏情况验证误差上限M是基于找到的，它近似为整个数据集（干净数据和中毒数据）上的训练误差。干净数据集上的异常不会过度影响模型。

4.3.4 其他防御

为了减轻后门攻击的影响，一种特殊的数据中毒攻击，Wang等人。通过利用触发器最终是将所有图像篡改为目标类别所需的（异常）最小扰动的原理提出了神经净化。因此，NeuralCleanse识别出这种最小的扰动以对触发器进行逆向工程，从而可以用于取消学习后门以将其移除。刘等人。修剪神经网络中对分类不敏感的冗余神经元，同时使用干净的数据微调模型，从而使它们能够正确分类。然而，他们的方法假设所有模型都可能被植入后门，并且盲目地对模型进行剪枝微调往往会降低正常模型执行正常任务的准确性。陈等。根据中毒数据和原始数据在神经网络中神经元激活状态的差异，通过激活聚类技术检测中毒数据。高等。提出了STRIP来检测运行时的触发输入，而无需任何ML技术。其原理是，对于输入不可知的后门攻击，无论输入内容如何，触发输入总是会被分类到目标标签中。这是因为触发器完全劫持了模型。因此，当强扰动被添加到触发输入时，预测受到的影响较小：对扰动不敏感。然而，正常输入应该对强扰动敏感。因此，检查一组加扰输入副本的预测随机性可以区分触发输入和正常输入：触发输入表现出低随机性，而正常输入表现出高随机性。