Yoshua Bengio等人关于AGI定义的重磅论文解读:建立AGI的科学蓝图

I. 论文背景与核心动机

近年来,随着大型语言模型(LLMs)的飞速发展,关于其是否能通向通用人工智能(AGI)的争论日益激烈。以OpenAI和谷歌为代表的技术体系坚信只需持续扩大规模即可实现AGI,而图灵奖得主李查德·萨顿、Meta首席科学家杨立坤等重量级人物则认为现有模型本质上走错了方向。这场争论的核心焦点在于一个最基本的问题:AGI到底是什么?由于缺乏一个客观、量化的标准,不同阵营得以各自为政。

为了解决这一模糊性,2023年10月16日,由AI领域三巨头之一的图灵奖得主Yoshua Bengio领衔的豪华国际研究团队,包括AI安全中心主任丹·亨德里克斯、加州大学伯克利分校的宋晓东、谷歌前CEO埃里克·施密特以及未来生命研究所的创始人马克斯·泰格马克等全球顶尖专家,共同发表了这篇题为《AGI的定义》的重磅论文。他们致力于为AGI设定一个可衡量、可测试的标准。

II. AGI的精确定义:通用性与熟练度

论文为AGI给出了一个清晰且直观的定义:AGI是一个在认知通用性和熟练度上能达到或超过一个受过良好教育的成年人水平的人工智能

  1. 认知通用性(Generality / 广度):强调AGI不能是“偏科生”。一个真正的AGI不仅需要擅长聊天或写代码,更需要在语言、推理、记忆、视觉、听觉广泛的认知领域都具备人类级别的能力。
  2. 熟练度(Proficiency / 深度):指的是在每一个认知领域,AGI的能力都需要达到一定的深度,即像一个受过良好教育的人那样理解问题,而不是只在表面上应付任务或完成简单的表层输入输出。

通过锚定“受过良好教育的成年人”这个现实世界中唯一的通用智能范例,该定义将AGI这个抽象概念转化为了一个可供参考和测试的实体。

III. 理论基础:CHC智力理论

AGI评估框架并非凭空想象,它植根于一个成熟的心理学科学理论——卡特尔-霍恩-卡罗尔理论(Cattell-Horn-Carroll Theory, 简称 CHC 理论)

CHC理论是心理学家们花费了几十年,通过对成千上万人的大量智力测试数据进行统计分析,总结出来的最具权威和证据最充分的人类智力结构模型

CHC理论将人类的认知能力描绘成一个三层级的金字塔结构

  1. 顶层(G因素/一般智力):代表一种普遍的、贯穿所有认知活动的智力能力,可理解为大脑处理器的核心算力
  2. 中层(广义能力):这是CHC理论的核心,将一般智力分解为大约10个相对独立的广义能力,是构成人类智能的主要模块。
  3. 底层(狭义能力):包含80多种具体的、最基本的能力,是金字塔的基座。

IV. AGI评估框架:十大核心认知维度

研究团队正是基于CHC理论的十大广义能力,构建了AGI的十大核心维度。为了确保评估的全面性,这十个维度在总分100分的评估中权重相等,各占10分

这十大核心维度及其涵盖的能力包括:

  1. 通用知识(Gkn):衡量AI对世界背景知识、常识、科学、历史等事实的理解和储备。
  2. 读写能力(RW):评估对书面语言的理解、写作和运用能力。
  3. 数学能力(M):涵盖算数、代数、微积分等领域的知识与技能。
  4. 即时推理(Gf):灵活解决新问题、不依赖先验知识的能力,如演绎推理和归纳推理。
  5. 工作记忆(WM):在活跃注意力下处理信息的能力,即短期记忆。
  6. 记忆存储(Ms):从经验中持续学习、巩固和稳定存储新信息的能力。
  7. 长期记忆检索(Glr):从记忆中精精准、流畅地提取知识,并避免产生幻觉的能力。
  8. 视觉处理(V):感知、分析、推理和生成图像、视频等视觉信息的能力。
  9. 听觉处理(A):识别、区分和处理声音、语音、音乐等听觉刺激的能力。
  10. 速度(Gs):快速自动化地执行简单认知任务的效率。

V. 现有模型的评估结果与主要缺陷

根据该框架的评估,AI模型的进步虽然显著,但其认知能力呈现出极不均衡的“犬牙交错”分布

模型 AGI总分
GPT-4 27%
GPT-5 (预测) 58%

1. 模型的强项:GPT系列最强的地方毫无例外是通用知识(Gkn)、读写能力(RW)和数学能力(M)。这些能力可以通过大规模数据训练快速获得,体现了LLM强大的知识库和文本处理功能。

2. 模型的致命短板(零分或接近零分):论文特别指出,模型在基础机制上存在严重缺陷,导致其在以下方面得分极低,甚至为零:

  • 长期记忆存储(Ms)和长期记忆检索(Glr)缺失:GPT-4和GPT-5在记忆存储(Ms)上的得分均为零。这意味着AI患有严重的“失忆症”。模型无法从与用户的持续交互中积累经验或修正错误,每次对话都是一次冷启动,无法真正从互动中学习任何东西。
  • 无法适应变化:即时推理(Gf)模块下,有一个名为“适应”的分项。GPT-5在该分向上得分仍为零。当规则被悄悄改变时,AI无法像人类一样调整,会表现出极端的认知僵化,仍然执行旧逻辑。
  • 缺乏物理世界深度理解:尽管GPT-5的多模态能力有所进展,但在**视觉处理(V)听觉处理(A)**上,需要更高层级抽象思维的能力(如空间逻辑、因果关系、声音结构理解)得分仍为零。模型虽然打开了通向物理世界的窗户,但“还看不懂窗外的风景”。
  • 不可靠性(幻觉):长期记忆检索(Glr)的“幻觉”分向上,GPT-4和GPT-5的得分同样是0。这意味着在不借助外部工具的情况下,AI是一个完全不可靠的信息来源

VI. 掩盖缺陷的策略:“能力扭曲”

论文提出了一个关键概念——能力扭曲(Capability Distortion),来解释为什么用户在使用GPT时,总感觉它“懂一切”。

AI系统利用其压倒性的优势能力(如巨大的工作记忆窗口计算速度)来掩盖或绕过其基础能力的根本性缺陷,从而制造出一种看似通用的脆弱假象

论文指出两种主要的扭曲方式,均旨在掩盖长期记忆的短板:

  1. 用工作记忆伪装长期记忆:模型通过支持越来越长的上下文窗口来处理海量信息。但这本质上是工作记忆的暴力延伸,而不是动态、可更新的个体化长期记忆系统。用户需要将历史信息反复位给模型,成本高昂且效率低下。
  2. 用外部搜索伪装成内部记忆检索:为了解决幻觉和知识检索不精确的问题,模型普遍采用检索增强生成(RAG)技术。论文一针见血地指出,RAG掩盖了模型在两个层面的缺陷:一是无法精确可靠地从自身庞大参数知识中进行检索;二是完全没有一个用于记录个体经验的私有记忆库

VII. 结论与意义

这篇论文最大的贡献在于将AGI这个长期模糊的宏大概念,转化为了具体可测量的指标和清晰的认知地图。它迫使研究界在同一标准下讨论AI的进展,并明确了通往真正AGI的道路还很漫长。未来AI研究必须持续关注并解决那些基础机制上的关键瓶颈,特别是长期记忆存储、适应变化以及物理世界理解等方向,才能真正推动AI向通用智能的新阶段发展。

本论文的核心贡献在于为长期以来模糊不清的通用人工智能(AGI)概念提供了一个清晰、可量化、可测试的评估框架。该框架将AGI定义为在认知通用性熟练度上达到或超过受过良好教育的成年人水平的人工智能系统。论文的评估结果显示,尽管AI能力进步迅速(GPT-5预计得分为58%),但与真正的人类水平AGI之间仍存在显著差距,尤其在长期记忆、适应变化和理解物理世界等基础认知机制上存在致命缺陷。



留下评论