李飞飞万字长文:从词语到世界–空间智能是AI的下一个前沿

现有的语言模型无法理解真实世界,空间智能是人工智能的下一个前沿。

AI教母李飞飞于11月11日发表万字长文,更加清晰地阐述了她对人工智能的下一个重大发展方向——空间智能的观点。这篇文章的结构优美且内容完整,涵盖了从提出问题到应用路径的完整过程。

一、 提出问题:大语言模型(LLMs)的致命伤

大语言模型(LLMs)虽然在生成语言方面取得了巨大进展,但语言并不能完全代表世界。LLMs的局限性已经充分暴露,其中最大的问题在于各种对不齐

模型需要能够遵守基础的物理规则和空间规律,但LLMs生成的结果往往无法遵守,例如内容可能前后矛盾,或者违反物理定律。

此外,模型还存在严重一致性差的问题。特别是在多模态生成中,当要求模型画出走针的时钟(如3:20或8:20)时,它常常画不对。在生成图像和视频时,也难以控制一致性,例如人物面容会“闪烁”,或者无法准确生成手指的数量。

这些问题清晰地指向了一个核心缺陷:当前的大语言模型,特别是多模态模型,缺乏对真实世界的空间理解能力,即空间智能

二、 核心概念:定义四维(4D)空间智能

很多人可能将空间智能简单地理解为3D空间,但它远比这复杂。

空间智能是一个4D空间的世界模型,它不仅包含三维空间,还必须结合以下要素:

  1. 物理特性:区分材质,例如钢、木头、水或空气等。
  2. 动作交互:涉及到物体之间的互动。
  3. 时间(时序):模型需要理解“我在里边做了一个动作,在这个动作后面会变成什么样”。

因此,空间智能是三维空间、物理、动作交互和时间相结合在一起的世界模型。

三、 方法论架构与技术实施要求

为了克服LLMs的局限性,未来的世界模型必须具备以下三个关键能力:

  1. 生成能力:模型依然是生成模型,但它生成的结果必须能够确保空间、物理和时序的一致性
  2. 多模态融合:需要结合图像、视频、深度、文字、手势动作,甚至可能包含触觉等多种模态。
  3. 下一个状态预测:必须能够对交互动作条件下的下一个状态进行预测,甚至对下一步的动作进行规划和预测。

实现要求:世界模型必须能够以显示或隐式的方式展现3D几何与物理的一致性。更重要的是,世界状态必须是可被读写和对齐的,能够进行相互验证。

数据与训练:依赖于两类数据:

  1. 真实世界数据:大量的互联网图片和视频数据本身具有物理一致性,它们在物理层面上已经通过了一致性验证。即使是2D视频,也可以通过计算机对其进行深度信息标注。
  2. 合成数据:利用游戏和3D模型直接合成数据,用于模型训练。

训练过程将要求生成与理解循环互补,通过推理和控制,关注“状态、动作和新状态”的转变。

核心技术探索:当前探索的一种新的模型方式是实时帧模型(Real Time Frame Model),其目标是像视频帧一样,直接输出下一帧的世界状态。

四、 应用路径与未来愿景

空间智能模型的应用将遵循渐进的路径:

  • 近期:主要应用于讲故事、创意和内容生产。我们已经开发出了Marble模型,供3D动画和游戏领域尝试使用。
  • 中期:专注于实现具身智能和机器人。这要求机器人能够真正理解世界,而不再仅仅依赖语言模型去进行世界理解。
  • 远期:用于更深层次的科学研究,包括材料学、医药学、分子生物学以及各种复杂系统的构建和探索。

AI的下一个问题必然是对齐。编程之所以对齐得最好,是因为其约束容易验证。而未来的5到10年,实现空间物理与时间对齐,即空间智能,无疑是一个重大的、必须解决的目标。

李飞飞及其团队在世界实验室(World Labs)的工作,将持续致力于这项宏伟的目标。将继续积累和标注大量数据,并为空间智能模型的学习提出标准和验证方法,从而拉动整个社会对这一前沿领域的关注。



留下评论