第二篇:通天塔之路——两种范式之争:无限扩展还是拥抱现实?
人类正试图建造一座新的通天塔,一座能触及智能天穹的巴别塔。然而,项目的总建筑师们却在最根本的蓝图上发生了激烈争执。这座塔的根基,究竟应该建立在数字世界的无限扩展之上,还是必须深植于物理现实的土壤之中?这场关于“如何”实现通用人工智能的辩论,不仅决定了研发的路径,更预示着未来AI可能呈现的形态及其与人类的关系。
当前,最主流、资金最雄厚、也最具声势的无疑是“规模化假说”(Scaling Hypothesis)。这一范式的信徒们,以OpenAI为旗手,坚信智能本身是一种可以“涌现”的现象。他们的信条简单而有力,带着一种近乎宗教般的虔诚:只要不断投入更多的计算资源、喂养更庞大的数据集、构建更巨型的神经网络模型,超越人类的智能最终会像凤凰涅槃般,从海量的参数中浴火而生。GPT系列模型从GPT-3到GPT-4所展现出的惊人能力跃迁,似乎为这一假说提供了最雄辩的证据。每一次模型的迭代,都解锁了前所未见的能力,从语言理解到代码生成,甚至初步的推理,这让人们相信,通往AGI的道路或许就是一条由算力铺就的、通往云端的康庄大道。
然而,在这股“唯规模论”的洪流中,一些最顶尖的头脑却发出了逆流而上的警告。图灵奖得主、Meta的首席AI科学家杨立昆(Yann LeCun)便是其中最坚定的批判者。他毫不留情地指出,当前的大型语言模型(LLM)更像是博闻强识的“随机鹦鹉”,而非真正理解世界的智能体。他的核心论点直指要害:这些模型缺乏一个关于世界的“内部模型”(world model)。它们能巧妙地预测下一个词,却无法真正理解物理规律、因果关系和我们所谓的“常识”。这就像一个熟读所有菜谱却从未进过厨房的人,他能告诉你红烧肉的100种做法,却不知道肉是会烧焦的。
杨立昆的批判还不止于此,他认为LLM的数据来源存在根本性缺陷。人类绝大部分的知识,尤其是在生命早期形成的常识,并非通过阅读文本习得,而是在与物理世界的互动中,通过触摸、观察、试错而获得。他尖锐地指出,互联网上所有的文本数据,其信息量远小于一个普通孩童通过感官从现实世界接收到的信息总量。因此,试图仅从语言的符号海洋中蒸馏出完整的智能,无异于缘木求鱼。为此,他提出了如“联合嵌入预测架构”(JEPA)等替代方案,旨在让AI学习世界的抽象表征,从而实现真正的规划与推理,而非停留在模式匹配的层面。
另一位重量级人物,被誉为“AI教母”的李飞飞(Fei-Fei Li),则从另一个维度对“语言中心主义”发起了挑战。她强调,如果AGI没有“空间智能”(spatial intelligence)——即感知、理解和与三维物理世界互动的能力——那么它就是不完整的,甚至是残缺的。她用一个生动的对比来阐述这一观点:语言本质上是一维的、符号性的、纯粹由人类创造的生成物;而我们所处的真实世界,是三维的,被复杂的物理规律所支配,需要持续的互动和理解,而不仅仅是生成内容。
这一观点自然而然地引向了“具身化”(embodiment)的重要性。许多研究者认为,AI必须拥有一个物理的身体,通过机器人等实体与世界互动,才能获得真正的常识和对世界的深刻理解。让机器像婴儿一样,通过笨拙的抓取和探索来学习,被视为通往AGI的一条更艰难但可能更正确的道路。
这场范式之争揭示了一个深刻的投资和战略困境。如果规模化假说是正确的,那么AGI的竞赛本质上是一场资本和算力的竞赛,其发展瓶颈是遵循摩尔定律的计算能力。然而,如果杨立昆和李飞飞的观点是正确的,那么AI发展的真正瓶颈将不再是算力,而是获取高质量物理世界互动数据的速度——这是一个缓慢、昂贵且充满“脏活累活”的过程。这意味着,通往AGI的道路可能并非一条平滑的指数增长曲线,而是一系列S形曲线的艰难叠加。当纯粹的语言模型撞上物理现实的“墙壁”时,整个领域可能会出现平台期。
最新的研究进展似乎正在为这场辩论增添新的注脚。2025年的一篇立场文件《AI Scaling: From Up to Down and Out》指出,单纯的“向上扩展”(Scaling Up)正面临数据和效率的双重瓶颈,未来的方向在于“向下扩展”(Scaling Down,即创造更小、更高效的核心模型)和“向外扩展”(Scaling Out,即构建由专业模型组成的协作生态系统)。更令人惊讶的是,2025年METR进行的一项研究发现,当经验丰富的开源软件开发者使用AI工具时,他们完成任务的时间反而延长了19%。这一结果,为那些关于生产力革命的宏大叙事,投下了一道意味深长的阴影,揭示了AI在基准测试中的高“能力”(competence)与在真实复杂任务中的“能效”(capability)之间存在着巨大的鸿沟。
与此同时,具身智能的阵营也并非停滞不前。2025年,来自特斯拉、1X和Figure等公司的人形机器人已经开始走出实验室,在制造业和物流等真实环境中执行任务。英伟达等公司也在机器人控制和模拟方面取得了重大进展,为机器人学习物理世界的规律提供了强大的工具。
这两种范式之争的背后,是对智能本质的根本性拷问。智能,究竟是一种可以从抽象符号中提炼出的纯粹信息处理能力,还是一种必须在与现实世界的互动中才能萌发的具身体验?我们创造的AGI,其“认知风格”将是何种形态?是一个对物理世界一无所知的“数字幽灵”,还是一个与我们共享物理经验的“机械伙伴”?前者可能因其思维方式的根本差异而难以对齐和控制,后者则可能在物理层面成为我们的直接竞争者。这条通往智能巅峰的通天塔之路,我们选择的每一块基石,都将决定塔顶的风光,以及我们自身在塔下的命运。

留下评论