专家辩论:大语言模型只是鹦鹉学舌还是真的理解?

2025年3月25日,美国著名的“计算机历史博物馆(CHM)与IEEE Spectrum合作举办了一场有趣的辩论会,辩论主题是“大型语言模型(LLM)是否能真正理解?”,希望了解普通民众对如ChatGPT等聊天机器人是否具备真实理解,还是仅通过数学和数据模拟理解有怎样的认知。

辩论一开始,有64%的观众认为大型语言模型(LLM)不具备真正理解能力,而22%认为具备,剩余14%可能未投票或持中立态度。辩论结束时的投票发生了戏剧性变化。

辩论背景与参与者

辩论主题聚焦于AI聊天机器人如ChatGPT是否具备真实理解,或仅通过数学和数据模拟理解。

辩论主持人是IEEE Spectrum负责AI和技术报道的高级编辑Eliza Strickland。

两位辩手分别是:

  • Emily M. Bender:华盛顿大学语言学教授,批评AI语言模型,著有“随机鹦鹉的危险”论文,即将出版著作《AI迷局:如何对抗大科技的炒作并创造我们想要的未来》。
  • Sébastien Bubeck:OpenAI技术人员,曾任微软AI副总裁和杰出科学家,著有“人工通用智能的火花:GPT-4早期实验”论文,支持LLM显现出一定智能的观点。

主要观点与辩论方式

  • Emily M. Bender的观点:她认为LLM不具备理解,仅仅是“随机鹦鹉”,通过统计模式生成文本,无真实含义。她的立场基于其先前研究,强调LLM缺乏对世界的模型,输出仅依赖训练数据模式。她可能举例说明LLM在常识或逻辑上的失败,如生成不准确或矛盾的回答。
  • Sébastien Bubeck的观点:他认为LLM展示“人工通用智能的火花”,有一定理解能力,超越简单模式匹配。他可能引用LLM成功案例,如解决复杂问题、通过专业考试或生成创造性内容,显示其推理和逻辑能力。

辩论形式包括开场陈述、交叉质询和总结,主持人Eliza Strickland可能引导讨论,确保双方公平表达。部分转录显示,一方强调拒绝在教育、医疗、法律和移民等系统使用合成文本,另一方反对恐吓策略,相信个人可判断AI工具价值,并讨论AI复杂性(如GPT3和GPT4的对比)。

辩论过程

  1. 双方的开场陈述
  2. 主持人主持的辩论环节,包括提问和互相质询
  3. 观众问答环节(包括线上和线下观众)
  4. 双方的总结陈词

主要论点

  • 艾米丽·M·本德: 
  • 语言模型的发展历程表明,它们只是在处理语言的形式,而不是意义。
  • 人类理解语言的方式是主动构建意义,而 LLM 缺乏这种能力。
  • LLM 的训练数据和算法不透明,使得对其能力和局限性的评估变得困难。

塞巴斯蒂安·布贝克: 

  • LLM 在各种基准测试中取得了显著进展,表明其解决问题和推理的能力不断提高。
  • LLM 可以在某些情况下为人类提供有价值的见解和帮助,即使它们不具备与人类完全相同的理解方式。
  • 理解是一个连续的指标,LLM 可能在某些方面具备一定程度的理解能力。

主持人和评判人的评价

主持人 Eliza Strickland 提出了许多深刻的问题,引导双方辩论。观众通过 Slido 投票来表达自己对辩论的看法。

 

证据与评价

  • Bender的证据:可能引用研究或实例,显示LLM在特定任务上的错误,如缺乏常识或上下文理解,强调其输出基于统计预测而非理解。例如,她可能提到LLM生成不准确答案的案例,证明其无深度理解。
  • Bubeck的证据:可能提供LLM成功案例,如通过专业考试、生成逻辑清晰的文本或解决复杂问题,显示其能力超越模式匹配。他可能引用其“火花”论文中的实验,展示LLM在新型任务上的泛化能力。

主持人与评判评价主持人Eliza Strickland负责引导讨论,可能在辩论结束时总结双方观点,无明确偏向。无明确提及评判团,但观众投票结果显示初始64%反对(可能为“LLM不理解”),辩论后转为接近平局(约50-50),表明辩论影响了部分观众意见,但无明确胜者。最终结果根据观众投票,结束时意见接近平局,显示双方观点均有说服力。

投票方法和最终结果

投票机制与结果辩论使用Slido平台进行观众投票,初始和结束时分别进行投票以比较意见变化。

最终观众意见的投票结果,赞成和反对的几乎打成平手,这意味着至少有14%的观众从不相信转变为相信AI可能具备理解力。

花絮与轶事

  • 辩论中,双方多次就 AGI 的定义、基准测试的有效性、以及 AI 伦理等问题展开激烈的讨论。
  • 观众提问环节涵盖了广泛的话题,包括人类理解的本质、LLM 的社会影响等。
  • 双方辩手都表达了对 AI 发展前景的看法,但对 LLM 是否具备真正理解能力的问题仍然存在分歧。

辩论中出现一些有趣细节:

  • 一方提到被AI生成的故事感动,引用Sam发布的例子,表达对未来发展的期待,显示AI情感影响的讨论。
  • 另一方警告不要将AI视为“有趣的玩具”或“好搜索工具”,倡导在关键系统(如教育、医疗)中谨慎使用,强调拒绝合成文本的必要性。

总结

此次辩论反映了AI社区关于LLM理解本质的持续讨论,Emily M. Bender和Sébastien Bubeck分别代表批评和支持的立场,辩论形式平衡,观众意见受影响,结束时虽然有不少观众改变了看法,但并不能说谁明确获胜。整场辩论展示了AI在情感和伦理层面的复杂性,值得进一步探索。

 



留下评论