大语言模型的根本局限与挑战

在人工智能(AI)领域,通用人工智能(AGI)被视为最终目标,代表着机器能够在多种任务上表现出与人类相当甚至超越的智能水平。然而,近期有许多对LLM的反思,一个令人担忧的结论是:尽管大语言模型(LLMs)如GPT-4在多个领域展现出令人瞩目的能力,它们在实现AGI乃至超级人工智能(ASI)方面仍面临诸多根本性挑战,也就是说,基本没戏。

一、缺乏连贯的世界模型:理解的空白

世界模型是指系统对外部世界的内部表示,能够帮助智能体进行预测、规划和决策。人类通过感知和经验构建动态的世界模型,而LLMs主要依赖于大规模的文本数据进行训练,缺乏对物理世界的直接感知和理解。

例如,LLMs在生成纽约市的行车路线时,可能会出现不存在的街道,导致在道路封闭或绕行时性能急剧下降。这表明,LLMs缺乏对世界的连贯理解,无法形成可靠的世界模型。

此外,LLMs在因果推理和抽象常识推理方面也存在明显的失败模式。研究发现,当叙事中的因果关系与模型预训练中记忆的常识知识冲突时,LLMs往往会忽略叙事细节,默认使用其参数化知识作为捷径。

二、具身智能的缺失:从语言到行动的鸿沟

具身人工智能(Embodied AI)强调智能体在物理世界中的感知、行动和学习能力。LLMs主要处理离散的文本信息,缺乏对连续感官输入的处理能力,难以应对复杂、动态的物理环境。

例如,在机器人任务中,LLMs可能因缺乏实时交互反馈和复杂的提示要求,导致性能不稳定。研究表明,LLMs驱动的规划和通信模块是主要的延迟来源,占总延迟的70.2%。

此外,LLMs在多代理系统中的可扩展性也面临挑战。中心化范式随着代理数量增加性能下降,而去中心化范式则面临通信开销急剧增加和协作效率降低的问题。

三、推理与常识的局限:从模式识别到理解的鸿沟

尽管LLMs在生成类人文本和解决中等复杂推理任务方面表现出色,但在需要更深层次认知技能(如常识理解和抽象推理)的任务中,仍缺乏鲁棒性。

研究发现,当LLMs被限制预测单一关系时,其性能会显著下降,并且在选择关系时存在明显的偏差。显式因果图提取可以显著改善LLMs的推理行为,避免上述捷径,因为这迫使LLMs进行长期推理,并更关注整个叙事。

此外,LLMs在处理经典推理任务时,如汉诺塔问题,常常失败,尤其是在问题复杂度增加时。这表明,当前的LLMs在推理能力上仍存在显著不足。

四、工程挑战:从实验室到现实世界的鸿沟

将LLMs应用于具身系统,如机器人和自动驾驶汽车,面临诸多工程挑战。LLMs驱动的规划和通信模块是主要的延迟来源,占总延迟的70.2%。低级执行模块也造成显著延迟。此外,大内存模块通常提高任务成功率,但也会增加检索延迟,并且过大的内存容量可能导致不一致问题。

多代理系统面临显著挑战,中心化范式随着代理数量增加性能下降,而去中心化范式面临通信开销急剧增加和协作效率降低的问题。

五、从AGI到ASI的鸿沟:理解、推理与适应的挑战

AGI不仅需要在多个领域执行任务、适应环境变化并解决新问题,还需要具备理解、推理和适应的能力。当前的LLMs主要依赖于模仿训练数据中的模式,缺乏对世界的真实理解。

例如,LLMs可能声称自己穿着商务服装,或不理解利润概念,这表明它们缺乏对自身存在和抽象概念的内在模型。

此外,LLMs在处理复杂推理任务时,如汉诺塔问题,常常失败,尤其是在问题复杂度增加时。这表明,当前的LLMs在推理能力上仍存在显著不足。

六、结语:从模仿到理解的转变

尽管LLMs在某些任务上表现出色,但要实现AGI乃至ASI,仍需克服理解、推理和适应等方面的根本性挑战。未来的AI系统可能需要结合LLMs与世界模型、具身智能和推理能力,以实现更全面的智能。()

例如,世界模型能够让AI系统构建内部的现实模拟,预测未来状态,从而进行有效的规划和决策。具身AI系统则强调智能体在物理世界中的感知、行动和学习能力,能够应对复杂、动态的环境。推理能力则使AI系统能够进行深层次的理解和决策。

因此,未来的AI发展可能需要从单一的语言模型,转向多模态、多能力的综合系统,以实现更接近人类智能的目标。



留下评论