什么是人工智能幻觉?为什么AI会编造答案?丨曼孚科技

发布时间 2024-01-05 20:04:43作者: 曼孚科技

当我们欣赏由AI生成的艺术作品时,往往会被其美感和独特性所吸引,它以令人惊叹的创造力和智能对话能力,在艺术、写作、音乐等领域展现出巨大潜力,仿佛具备了人类的创作天赋。

然而,近期的一些事件引发了人们对AI系统输出准确性和可信度方面的关注,即“它自信地给出了看似正确实则错误的答案。

有用户反映ChatGPT给出的一份关于社会认知理论的顶级书单(10本)中,有4本书并不存在;谷歌技术与社会高级副总裁詹姆斯·曼尼卡在一个演示中向生成式AI询问通货膨胀问题时,AI推荐了5本不存在但听起来可能存在的书。

我们不得不面对一个问题:生成式AI的输出是否会存在虚假的“幻觉”?为什么会出现这样的事情?

 

什么是人工智能幻觉?

人工智能幻觉是一个比喻,用于描述AI作出的不符合其训练数据的自信断言,即使这些断言可能与实际情况有显著差异。

该词汇借鉴了人类心理学中对于感知错误的描述,强调AI在处理数据时可能出现的误读。如同人脑错将光影误认为实物的幻觉一样,AI也会在无意识中进行错误地预测。

语言模型擅长编造与现实无关的事实,但这并非出于它们的主观意图,因为AI无法主观感知,而是由算法层面决定。例如,AI在接收到与训练集中相似的输入数据时,会依据先前经验准确地输出,即便这些内容在新文本中不再适用。

过去数月里,像ChatGPT这样的聊天机器人已经吸引了全世界的注意力,但这也为社会治安带来一个隐患:生成式AI可以轻易地提供令人信服的虚假信息,使之成为不可靠的信息来源和潜在的诽谤策源地。

 

为什么AI会编造答案?

关于AI编造答案的问题探讨须从搜索引擎与聊天机器人的演进讲起,搜索引擎的主要代表为谷歌,聊天机器人的主要代表为Chatgpt。

在早期的互联网时代,搜索引擎主要起到了信息检索的作用,用户在搜索框输入关键词,谷歌反馈出相应的网页链接,这一过程是基于关键词与网页内容之间的匹配。

可以说,通过用广告“点缀”其搜索结果,谷歌建立了一个帝国,它的防线似乎坚不可摧,然而它有一个潜在的弱点:如果一个竞争对手能够给用户提供答案,而不是那些可能含有答案的网站链接,那么谷歌就遇到了大麻烦。

不幸的是,ChatGPT就是这样的对手。它是2022年11月由OpenAI推出的尖端聊天机器人。ChatGPT可以用清晰、简单的句子生成新内容,而不仅是一串互联网链接。它可以从头开始创作,包括商业计划书、年终总结、博客主题与代码编写。

但ChatGPT也有一个潜在弱点,它不能区分真假。原因有其二:

首先,ChatGPT是无意识的模仿者,并不理解自身在说什么,它只是从二手信息中拼凑出听起来非常权威的答案,输出读起来很好、听起来很聪明的文本,让用户认为它已经验证了所给出答案的准确性,但无法保证文本的完整性、准确性,甚至可能是一本正经的胡说八道。

其次,这些语言模型无一不是从开放网络上刮取的大量文本中训练出来的。GPT模型的原始数据集中并不存在任何东西能够将事实与虚构分开。当ChatGPT开始虚构时,其实是在找寻数据集中不存在的信息,并用完善的组句来填补空缺。

由于ChatGPT拥有惊人的数据量,所以它特别善于编造事情,而且它组织单词上下文的能力非常好,这有助于它将错误的信息无缝地放入文本中,生成让人信服的错误答案。

因此,现阶段的生成式AI还难以取代维基百科或传统搜索引擎。

 

原始材料的重要性——训练数据

本质上说,模型在学习和推理过程中的局限性、训练数据的不完备性或算法的不完善性是出现这种事件的根因。其中,原始材料的准确性尤其重要

正如特德·姜在《ChatGPT是网上所有文本的模糊图像》中所写,“要构成一个值得信赖的搜索替代品,LLM(生成式大模型)需要在高质量的数据上进行训练。” 且如果一个模型只在非常有限的数据集上进行训练,它也无法准确推广至未见过的情境。此外,如果训练数据本身包含偏差或噪音,模型也可能学习到这些错误或偏见,并在未来的决策中复现它们。

因此,拥有一个既精确又全面的数据集对于打造高效的AI系统至关紧要。正出于这个理解,数据标注的重要性被推至前所未有的高度。

数据标注是将信息分类和标签化的过程,标注的数据可以帮助模型识别特定的模式和参数,从而在输入数据时更为精确和高效。这个过程包括识别图像中的对象、翻译语音或文本、以及标记文本数据中的情感或主题等。

高质量的数据标注对于创建准确的机器学习模型至关重要,一个经过仔细标注的数据集能够极大地提高模型性能,这是AI系统在输出信息时更为精准和高效的关键。

 

总结

在这个以数据驱动的时代里,AI生成的内容已经变得无处不在,人类享受AI带来的便捷同时,也必须保持警惕,对于AI呈现的信息持有审慎的态度。

AI模型像任何其他技术一样,不是完美无缺的,其性能更多地依赖于训练数据的质量及人类对其结果的持续验证。

随着生成式AI模型的进一步发展,AI系统将变得更加智能和准确,但在那一天到来之前,人类还需保持警惕,用批判性思维来评估AI提供的每一条信息。

可以说,AI的未来充满了无限可能,但是铸就这一未来的每一步都需要我们用智慧和责任心来共同塑造。