什么是人工智能幻觉？为什么AI会编造答案？丨曼孚科技-526互联

当我们欣赏由AI生成的艺术作品时，往往会被其美感和独特性所吸引，它以令人惊叹的创造力和智能对话能力，在艺术、写作、音乐等领域展现出巨大潜力，仿佛具备了人类的创作天赋。

然而，近期的一些事件引发了人们对AI系统输出准确性和可信度方面的关注，即“它自信地给出了看似正确实则错误的答案。”

有用户反映ChatGPT给出的一份关于社会认知理论的顶级书单（10本）中，有4本书并不存在；谷歌技术与社会高级副总裁詹姆斯·曼尼卡在一个演示中向生成式AI询问通货膨胀问题时，AI推荐了5本不存在但听起来可能存在的书。

我们不得不面对一个问题：生成式AI的输出是否会存在虚假的“幻觉”？为什么会出现这样的事情？

什么是人工智能幻觉？

人工智能幻觉是一个比喻，用于描述AI作出的不符合其训练数据的自信断言，即使这些断言可能与实际情况有显著差异。

该词汇借鉴了人类心理学中对于感知错误的描述，强调AI在处理数据时可能出现的误读。如同人脑错将光影误认为实物的幻觉一样，AI也会在无意识中进行错误地预测。

语言模型擅长编造与现实无关的事实，但这并非出于它们的主观意图，因为AI无法主观感知，而是由算法层面决定。例如，AI在接收到与训练集中相似的输入数据时，会依据先前经验准确地输出，即便这些内容在新文本中不再适用。

过去数月里，像ChatGPT这样的聊天机器人已经吸引了全世界的注意力，但这也为社会治安带来一个隐患：生成式AI可以轻易地提供令人信服的虚假信息，使之成为不可靠的信息来源和潜在的诽谤策源地。

为什么AI会编造答案？

关于AI编造答案的问题探讨须从搜索引擎与聊天机器人的演进讲起，搜索引擎的主要代表为谷歌，聊天机器人的主要代表为Chatgpt。

在早期的互联网时代，搜索引擎主要起到了信息检索的作用，用户在搜索框输入关键词，谷歌反馈出相应的网页链接，这一过程是基于关键词与网页内容之间的匹配。

可以说，通过用广告“点缀”其搜索结果，谷歌建立了一个帝国，它的防线似乎坚不可摧，然而它有一个潜在的弱点：如果一个竞争对手能够给用户提供答案，而不是那些可能含有答案的网站链接，那么谷歌就遇到了大麻烦。

不幸的是，ChatGPT就是这样的对手。它是2022年11月由OpenAI推出的尖端聊天机器人。ChatGPT可以用清晰、简单的句子生成新内容，而不仅是一串互联网链接。它可以从头开始创作，包括商业计划书、年终总结、博客主题与代码编写。

但ChatGPT也有一个潜在弱点，它不能区分真假。原因有其二：

首先，ChatGPT是无意识的模仿者，并不理解自身在说什么，它只是从二手信息中拼凑出听起来非常权威的答案，输出读起来很好、听起来很聪明的文本，让用户认为它已经验证了所给出答案的准确性，但无法保证文本的完整性、准确性，甚至可能是一本正经的胡说八道。

其次，这些语言模型无一不是从开放网络上刮取的大量文本中训练出来的。GPT模型的原始数据集中并不存在任何东西能够将事实与虚构分开。当ChatGPT开始虚构时，其实是在找寻数据集中不存在的信息，并用完善的组句来填补空缺。

由于ChatGPT拥有惊人的数据量，所以它特别善于编造事情，而且它组织单词上下文的能力非常好，这有助于它将错误的信息无缝地放入文本中，生成让人信服的错误答案。

因此，现阶段的生成式AI还难以取代维基百科或传统搜索引擎。

原始材料的重要性——训练数据

本质上说，模型在学习和推理过程中的局限性、训练数据的不完备性或算法的不完善性是出现这种事件的根因。其中，原始材料的准确性尤其重要。

正如特德·姜在《ChatGPT是网上所有文本的模糊图像》中所写，“要构成一个值得信赖的搜索替代品，LLM（生成式大模型）需要在高质量的数据上进行训练。” 且如果一个模型只在非常有限的数据集上进行训练，它也无法准确推广至未见过的情境。此外，如果训练数据本身包含偏差或噪音，模型也可能学习到这些错误或偏见，并在未来的决策中复现它们。

因此，拥有一个既精确又全面的数据集对于打造高效的AI系统至关紧要。正出于这个理解，数据标注的重要性被推至前所未有的高度。