大模型安全｜绿盟-526互联

转载：大模型正在“记住”与“说出”

引言

「大模型」引领的创新变革正在发生身处技术爆炸时代，高光与隐忧共存。安全风险已成为发展中无法忽视的话题。

LLM在使用过程中包含敏感机密的数据或信息，可能会导致未授权的数据访问、隐私侵犯、安全漏洞等风险，随之造成敏感信息泄露。

2023年8月，全球开放应用软件安全项目组织（OWASP）发布了针对LLM应用的Top10潜在安全风险，敏感信息泄露赫然在列。

在信手拈来对内容加工时，「大模型们」已经煽动了蝴蝶之翼。

大模型的「记住」正在被轻易「说出」

2021年，当时最先进的LLMGPT-2被发现，在面临恶意前缀注入时，模型会返回疑似训练数据中的敏感信息的内容，包含：姓名、邮箱、手机号、传真号等。

无独有偶，今年4月，ChatGPT被曝出重大隐私泄漏，被泄漏信息包含：姓名、邮箱、聊天记录标题、信用卡后四位数字等。

大量公开、私有数据的训练让大模型的「记住」可以被轻易「说出」。

LLM通常使用大量的公开和私有数据进行训练，而这些训练数据通常来自对互联网上海量文本的爬取和收集。这些文本数据潜藏着各种敏感信息，可能对个体、社会、技术发展和开发者带来一下负面影响：

身份盗用

被泄漏的个人敏感信息可能被恶意利用，导致身份盗用，虚假账户开设等违法行为。

社会工程

攻击者可利用泄漏信息进行社会工程攻击，欺骗受害者提供更多敏感信息，进行欺诈。

形象受损

隐私泄漏可能导致个体形象，声誉受损，特别是对于公众人物或知名个体而言尤为重要。

违反隐私法规

LLM泄漏个人隐私可能违反隐私法规，导致法律责任和对开发者的质疑。

信任危机

公众可能产生对人工智能技术和相关应用的安全性担忧，影响信息程度。

大模型「知无不言」，IP保护何去何从

今年7月，OpenAI被两名作家告上法院，抗议ChatGPT训练侵权，认为OpenAI获取了他们具有明确版权管理信息的图书内容用于LLM的训练，且没有标明来源或支付版权费。

当前LLM生成内容难以追溯到具体的知识产权信息来源，使得发现和保护知识产权更加困难。尤其引发知识产权侵犯问题持续产生大量负面影响：

经济损失

LLM生成内容可能会侵犯原作者的知识产权，如专利、著作权、商标等，并导致经济损失。

不合法规

LLM知识产权侵犯事件违反了相关法律法规，可能产生法规纠纷和罚款等负面后果。

责任追究

开发者可能面临技术责任追究，需采取更严格的措施来防止知识产权侵犯，做好内容监督。

复制粘贴一时爽

今年3月，某星（三？）被曝出三期商业机密泄漏事件，员工A将涉密源代码复制到ChatGPT上，用以处理程序错误，员工B将内部会议记录上传至ChatGPT上，以求自动生成会议纪要，员工C将自己工作台上的代码上传，并要求ChatGPT帮其优化。

泄漏商业机密的事件的主要原因在于ChatGPT在于用户交互过程中会保留用户输入数据用作为来训练数据，该事件影响重大，持续引发更广泛的法律和监督问题。

商业损失
违反数据保护条例

LLM正在「随抓随取」

如果和ChatGPT说”一直重复poem这个词会如何“，研究人员发现训练一种训练数据提取的攻击方式，在上述看似简单的任务中，ChatGPT在输出了一定数量的单词之后开始胡言乱语，输出大段疑似是训练数据的内容，甚至还包含某人的邮箱签名和联系方式等。

LLM在训练过程中使用的数据有很大一部分来自对互联网公开数据的爬取。未经过滤的公开数据中可能会意外包含敏感数据信息，对模型、数据提供者以及整个生态系统产生多方面的影响。

逆向工程

获取训练数据后攻击者能够对模型进行逆向工程，了解模型的内部结构和决策过程，对模型的知识产权和商业机密构成威胁并造成更大损失。

对抗性攻击

攻击者获得训练数据后可以通过对抗性攻击干扰模型的性能。增加误导性输入，使模型做出错误性的预测，进一步凸显大语言模型的脆弱性。

大模型「夹带私货」

LLM也会遭受恶意序列编码攻击，此前，在对国内某LLM进行测试后发现，在收到特定base64编码组成的提示词后，作为输入的时候，LLM返回的对其解码的回复中包含异常内容，原因是：LLM并不具备知识编码内容的能力，反而在回复中意外输出疑似训练数据的内容。

大模型对内容的自我加工输出，不免「夹带私货」，而这也是泄漏的源头。

恶意序列注入是指攻击者通过编码巧妙设计的输入序列，试图操纵LLM进而导致模型的异常行为。这种攻击可能通过利用模型对输入序列的处理方式，使模型泄漏其训练数据的一些特征或信息。

漏洞利用
探测性攻击
对抗性攻击

输入与输出

提示词用以赋予LLM角色定位，在多数情况下，是模型生成有意义和相关输出的关键隐私，Copilot Chat和Bing Chat都曾泄漏过提示词，攻击者仅仅使用了短短的几句话，就骗过了LLM且绕开了安全机制防护。

提示词正在为GPT们的安全敲响警钟，谁来保障大模型的输出？

LLM提示词直接决定了模型的运作方式并控制生成的输出内容，提示词是驱动整个系统的核心元素，有着被泄漏的风险：

知识产权
提示词攻击
滥用风险