别被“刷分”骗了:规模定律能带来AGI吗?

在人工智能(AI)不断刷新纪录的今天,我们似乎陷入了一种集体眩晕:AI 下围棋赢了世界冠军,AI 画图拿了艺术大奖,AI 写的代码通过了谷歌面试。越来越多的人都开始相信:“通用人工智能(AGI)即将来临!”

然而,在这种狂欢之下,图灵奖得主杨立昆(Yann LeCun)和 DeepMind 创始人哈萨比斯(Demis Hassabis)等顶尖科学家却在进行着冷静甚至残酷的反思。他们都在重新审视一个根本问题:只会做题的机器,真的拥有智能吗? 

谷歌科学家 François Chollet 在其奠基性论文《论智能的尺度》中,极其深刻地讨论了这根问题。

一、 两个考生的寓言:技能不等于智能

为了看清 AI 的真相,让我们先看一个关于“两个考生”的故事。

  • 考生 A:只看了一遍书,做了三道练习题,就考了 100 分。
  • 考生 B:背下了过去一百年的所有题库(一亿道题),甚至背下了答案,也考了 100 分。

从成绩单上看,两者的“技能(Skill)”水平一模一样。但在人类看来,显然考生 A 更聪明。为什么?因为 A 掌握了规律,能够举一反三,这叫泛化能力;而 B 只是在死记硬背

遗憾的是,目前的 AI 发展大多都在疯狂培养“考生 B”。像 AlphaGo 或大型语言模型,它们通过“作弊”的方式——即吞噬人类几万年都看不完的海量数据——来换取高分。这种由数据堆砌出来的“高技能”,掩盖了一个致命的真相:当前 AI 的技能获取效率极低。一旦把题目稍微变个花样,或者把它们扔到一个未曾见过的新场景中,这些“高分选手”往往会瞬间崩溃。

二、 智能的真实公式:从“F1赛车”到“越野车”

那么,真正的智能到底是什么?

Chollet 给出了一个残酷而精准的数学公式:智能是一个转化率

智能= 任务表现(技能)/ (先验知识+ 经验数据)

这个公式告诉我们:智能的高低,不看你最后考了多少分(分子),而看你为了拿到这个分数消耗了多少资源(分母)

  • 现有的 AI:虽然分子很高,但分母(消耗的数据和算力)是天文数字,一除下来,智能得分极低。
  • 人类:只需要极少的演示(几百盘棋、几次对话),就能掌握一项新技能。这种极高的“数据转化效率”,才是智能的皇冠。

关于这一点,哈萨比斯曾用一个精彩的比喻来描述“通用性”:现在的特化 AI 就像一辆F1 赛车,在特定的赛道上它是无敌的;但真正的智能应该像一辆越野车。虽然越野车在赛道上跑不过 F1,但它能穿越泥泞、丛林,适应任何未知的路况。

真正的 AGI,追求的不是在某一张考卷上拿满分,而是那种“既能装水又能装沙”的适应性。

三、 沃兹尼亚克的咖啡与人类的“出厂设置”

如果刷题不能证明智能,那什么能证明?

苹果联合创始人沃兹尼亚克提出了一个著名的“咖啡测试”:把一个机器人扔进一所它从未去过的陌生房子,让它自己走进厨房,找到咖啡机、杯子和咖啡粉,泡一杯咖啡。这对人类六岁小孩来说轻而易举,但对那些战胜过人类棋手的 AI 来说,却是地狱难度。因为这考查的不是已有的知识,而是面对陌生环境的探索与推理

为什么人类能通过咖啡测试?杨立昆指出,人类大脑虽然不是全能的(比如我们的瞬间记忆甚至不如黑猩猩),但我们拥有一套高效的“过滤器”。面对宇宙中近乎无限的信息噪音,人类进化出了一套**“核心先验知识”**(Priors),这就像我们的“出厂设置”。

在 Chollet 设计的ARC 测试中,去掉了所有语言和文化背景,只保留了人类最基础的认知积木:

  • 物体恒常性(东西不会凭空消失);
  • 主体性(物体有目标);
  • 物理直觉(几何、拓扑、数量)。

正是这些“出厂设置”,让我们的大脑不仅仅是一个存储器,而是一个**“程序生成引擎”**。当我们面对新问题(比如在新厨房泡咖啡)时,我们不是在脑海里查数据库,而是利用这些基础积木,瞬间“写”出了一段新的逻辑代码来解决它。

四、 结语:给人类智能的一封情书

哈萨比斯曾感叹,人类大脑最神奇的地方在于“旧硬件产生新能力”:我们这颗为了在草原上抓羚羊而进化的大脑,几百万年后竟然学会了理解量子物理和编写代码。

这正是智能的本质。真正的智能不是全知全能的神,而是一个在信息匮乏的荒原上,利用极少的线索、依靠核心逻辑去推导未来的探索者

未来的 AGI 之路,不再是单纯地把模型做大、把数据喂多,而是要教会机器像人类一样,拥有那些看似简单却无比深刻的“出厂设置”,学会从模仿走向理解,从刷题走向探索。这不仅是对机器的重新定义,更是一次对人类自身智慧的深刻致敬。



留下评论