人工智能野史:一部百年思想的跌宕传奇(之七)

第七部:新神祇的泥足:LLM的惊艳与“一本正经的胡说八道”

Transformer架构的出现,如同打开了潘多拉的魔盒。在此之后,人工智能的发展进入了一条全新的快车道——“规模定律”(Scaling Laws)的时代。研究者们发现,只要不断地增大模型的参数量、扩充训练数据集的规模,模型的性能就会随之以可预测的方式持续提升。这场由数据、算力和算法共同驱动的“军备竞赛”,最终催生了我们今天所熟知的新神祇——大型语言模型(Large Language Models, LLMs)。它们展现出的惊人能力,让世界为之震撼,但在这耀眼的光环之下,其内在的、深刻的缺陷也逐渐暴露无遗。

规模的胜利:当模型变成“世界”

从2018年的BERT和GPT-1开始,一场参数量的“指数爆炸”席卷了整个AI领域。模型的规模从数亿级别,迅速膨胀到数百亿,乃至数千亿。2020年,OpenAI发布的拥有1750亿参数的GPT-3,成为了一个里程碑式的事件。

GPT-3的强大,不仅在于它能生成比以往任何模型都更流畅、更连贯的文本,更在于它展现出了一种被称为“涌现能力”(Emergent Abilities)的现象。这些能力,如进行简单的数学推理、编写代码、翻译语言、甚至对人类的意图进行某种程度的“猜测”,似乎都不是被明确“教会”的,而是在模型规模大到一定程度后,自发地“涌现”出来的。

这背后的逻辑是,当一个模型被投喂了几乎相当于人类文明所有数字化文本的“精神食粮”后,它为了更好地完成“预测下一个词”这个看似简单的任务,被迫在内部学习到了关于世界的大量事实、不同概念间的联系,甚至是一些抽象的规则和模式。模型本身,在某种意义上,成为了一个压缩的、概率化的“世界模型”。人工智能,第一次从实验室里的专业工具,变成了能够与公众进行开放式对话、展现出惊人创造力的“伙伴”,引发了全球范围内的科技热潮与社会震动。

“幻觉”流行病:自信的谎言与不存在的判例

然而,当人们开始将这些新神祇应用于严肃的现实世界任务时,他们很快发现了其致命的“阿喀琉斯之踵”——“幻觉”(Hallucination)。这个术语,指的是大型语言模型以一种极其自信和流畅的口吻,编造出完全错误或不存在的信息的倾向。

这些“一本正经的胡说八道”很快便酿成了一系列啼笑皆非甚至后果严重的事件:

  • 航空公司的窘境: 加拿大航空的一位用户,向其官网的AI客服咨询亲人去世的机票优惠政策。这个AI助手“创造性”地承诺了一个公司实际上并不存在的优惠政策。当用户要求兑现时,加航最初拒绝,声称“聊天机器人是独立的法律实体,应对自己的行为负责”。最终,法院裁定加航必须为自己AI的“幻觉”买单。
  • 律师的灾难: 美国纽约的一位律师,在准备一份法庭文件时,使用ChatGPT进行案例研究。他向法庭提交了一份引用了六个完全不存在的、由ChatGPT编造的过往判例的法律文书。这一行为被法官发现后,该律师和他的律所遭到了严厉的惩罚和公开的羞辱。
  • 科技巨头的尴尬: 在Google发布其大型语言模型Bard的首次公开演示中,为了展示其能力,Bard被问及“詹姆斯·韦伯太空望远镜有哪些新发现?”。Bard自信地回答,它“拍摄了太阳系外行星的第一张照片”。然而,这一事实是错误的,第一张系外行星照片是由欧洲南方天文台的甚大望远镜在2004年拍摄的。这个在宣传视频中的明显失误,导致Google的母公司Alphabet股价一度暴跌。

这些事件揭示了LLMs的根本运作机制。它们并非像人类一样拥有一个关于“真/假”的概念模型,它们本质上是“随机鹦鹉”(Stochastic Parrots),是极其复杂的模式匹配和序列预测引擎。它们的唯一目标,是根据输入的上下文,生成一个在统计上最“可能”的词语序列。因为它们的训练数据中充满了结构良好、语气自信的文本,所以它们学会了用同样的风格来输出内容,无论内容是真是假。它们被优化的是“连贯性”,而非“正确性”。因此,“幻觉”并非一个可以被轻易修复的“bug”,而是当前技术范式下一个根深蒂固的、与生俱来的特性。

灵魂之问:是“随机鹦鹉”还是“智慧火花”?

LLMs展现出的矛盾特性——时而闪现智慧的火花,时而陷入荒谬的幻觉——引发了一场关于其“灵魂”的激烈辩论。

一方观点认为,这些模型终究只是“随机鹦鹉”。它们并不真正“理解”语言或世界,只是在庞大的数据海洋中,学会了对语言符号进行令人信服的重新组合与模仿。它们所有的“知识”,都只是对其训练数据的统计模式的反映。它们的推理能力脆弱不堪,常常在简单的逻辑或算术问题上出错;它们缺乏因果分析能力,只能描述相关性,却无法解释原因。最重要的是,它们缺乏“具身性”(Embodiment)——它们知道“苹果”这个词经常和“甜”、“红色”等词一起出现,但它们从未真正尝过一个苹果,也无法体验“红色”是一种怎样的感觉。它们的“理解”,是悬浮在文本符号层面的,而非植根于物理世界的真实体验。

而另一方则认为,在这种复杂的模仿中,可能正孕育着一种全新的、我们尚未完全理解的智能形式。他们指出,模型展现出的“涌现能力”,例如在少样本学习(Few-shot Learning)中展现出的快速适应新任务的能力,已经超越了简单的模式匹配,可以被视为“通用人工智能的火花”(Sparks of AGI)。

这场辩论至今没有定论。但LLMs的存在,本身就迫使我们对人类智能进行更深层次的反思。或许,人类的许多认知过程,也远比我们想象的更依赖于直觉和模式匹配,而非严谨的逻辑推理。然而,人类智能的独特之处,在于它始终与我们的身体、我们的情感、我们所处的物理世界和社会文化环境,紧密地交织在一起。这种通过与世界和他人的互动,不断试错、学习和积累知识的能力,正是当前的人工智能尚未真正触及的维度。而我们与这些新神祇的互动,也正在重塑我们的信息生态。当权威的、流畅的文本可以被机器以近乎零成本的方式无限生成时,我们沿袭了数百年的、对书面文字的基本信任正在被侵蚀。这给每一个信息消费者都带来了新的认知负担:从被动的接受者,转变为主动的、时刻保持警惕的验证者。这或许是LLMs带给我们的,最深刻也最具挑战性的社会变革。

上一篇:语言的炼金术:当机器学会“集中注意力”

下一篇:终局之战?真实风险与艰难抉择



留下评论