2025“世界模型”进展

 

前言

2025年标志着人工智能从“语言智能”向“物理智能”跨越的历史性转折点。继大语言模型(LLM)重塑信息处理范式之后,世界模型(World Model)作为通往通用人工智能(AGI)的关键路径,在这一年迎来了技术爆发与产业落地的双重高潮。本报告旨在对2025年世界模型领域的核心技术流派、里程碑式模型、垂直行业应用及未来挑战进行详尽的梳理与重构。报告首先分析了“生成式”与“规划式”两大技术范式的理论分野,探讨了模型从被动观察者向主动代理人(Agent)演变的内在逻辑。随后,深入剖析了OpenAI Sora 2、Google DeepMind Genie 3、Meta V-JEPA 2以及中国快手Kling O1等代表性模型的架构创新与应用价值。特别是在自动驾驶领域,世界模型已成为L4/L5级自动驾驶系统的核心组件,推动了从模块化设计向端到端“神经世界模拟器”的范式转移。最后,报告基于Physics-IQ基准测试结果,客观评估了当前技术面临的“物理幻觉”、长程一致性及算力成本等瓶颈,并展望了未来物理AI与逻辑推理融合的发展方向。

一、范式转移——从语言理解到物理模拟

1. 后LLM时代的物理AI崛起

回顾2023至2024年,人工智能领域的焦点主要集中在大语言模型(LLM)对人类自然语言的理解与生成上。然而,随着纯文本数据红利的逐渐枯竭,以及AI在处理现实物理世界任务时表现出的局限性,2025年见证了技术重心的根本性迁移——从构建“理解符号的大脑”转向构建“理解物理世界的感官与大脑”。这一年,业界不再满足于AI仅能通过文本描述世界,而是致力于让AI建立对物理环境的内部表征,掌握重力、碰撞、流体动力学等物理规律,并具备在虚拟空间中进行假设推理和决策演练的能力。

世界模型(World Model)的概念在这一背景下被赋予了新的内涵。它不再局限于强化学习中辅助预测下一状态的狭义模块,而是演进为一种能够模拟环境动力学演变、支持跨模态交互的通用基础模型。随着科技巨头和初创公司纷纷将目光转向视频生成、三维空间构建和具身智能(Embodied AI),“物理AI”成为年度关键词。这种转变的驱动力在于行业共识:要实现真正的通用人工智能(AGI),AI必须具备“物理常识”,即能够像人类一样,通过观察和互动来理解物理世界的因果关系。

2. 2025年技术演进时间轴

2025年是世界模型技术密集发布、百花齐放的一年。从年初的基础设施布局到年末的架构创新,整个行业展现出极快的迭代速度:

●      基础设施奠基(年初): NVIDIA推出了物理AI基础平台Cosmos,旨在为物理仿真提供算力与架构支持;与此同时,腾讯开源了混元大模型HunyuanVideo,为学术界和开源社区提供了强大的视频生成基座,降低了世界模型的研究门槛。

●      自动驾驶先行(一季度): 英国初创公司Wayve发布了面向自动驾驶的生成模型GAIA-2,标志着世界模型在安全攸关的垂直领域率先实现突破,展示了生成式仿真在复杂交通场景中的潜力。

●      理论流派博弈(年中): Meta发布了第二代视频预测模型V-JEPA 2,坚持其“非生成式”的表征学习路线,与当时主流的生成式模型形成鲜明对比,引发了关于“AI应如何理解世界”的深刻讨论。

●      交互式突破(夏季): Google DeepMind推出了实时交互式模型Genie 3,打破了视频生成的线性叙事限制,让用户能够实时控制生成的视频内容,开启了“交互即生成”的新时代。

●      多模态爆发(秋季): OpenAI在9月底发布了备受瞩目的Sora 2,不仅在视觉逼真度上再上台阶,更引入了音画同步能力。随后,World Labs推出可编辑3D场景生成模型Marble,将竞争维度从2D平面拓展至3D空间。

●      推理与可控性深化(年底): 视频创作平台Runway发布了强调导演级控制的通用世界模型Gen-4;中国快手团队则推出了引入思维链推理的Kling O1,标志着世界模型开始融合逻辑推理能力,试图解决物理一致性难题。

二、核心技术范式之争与融合

在2025年的技术浪潮中,学术界和产业界对“什么是真正的世界模型”展开了激烈的辩论,形成了两大核心流派:生成式流派与预测规划流派。同时,随着动作(Action)维度的引入,两大流派在“代理人”这一终极目标上呈现出殊途同归的趋势。

1. 生成式流派:生成即理解

生成式流派(Generative Stream)是目前最为活跃、公众关注度最高的技术路线,其代表机构包括OpenAI、Runway以及Google的VideoPoet团队。

●      核心理念: 该流派主张“生成即理解”(Generation is Understanding)。如果一个模型能够高度精确地预测视频的下一帧,并且在长时间跨度内保持场景的连贯性和物理合理性,那么它必然在神经网络的权重中隐式地学会了物理世界的规律(如重力加速度、刚体碰撞、流体湍流等)。

●      技术路径: 主要利用Transformer或扩散模型(Diffusion Models)强大的序列建模能力,在大规模视频数据上进行预训练,试图通过“暴力破解”的方式拟合物理世界的像素分布。

●      优势与争议: 生成式模型的最大优势在于直观、可视化的结果,能够生成令人惊叹的逼真视频。然而,Meta首席科学家Yann LeCun等学者批评这一流派“在细节中迷失”,认为模型花费大量算力去预测草叶纹理或水波反光等无关紧要的细节,并未真正掌握底层的因果逻辑,容易产生符合视觉习惯但违背物理定律的“幻觉”。

2. 预测规划流派:交互即智能

预测规划流派(Predictive Planning Stream)以Meta及Yann LeCun为代表,强调模型的抽象推理能力和服务于决策的目标。

●      核心理念: 该流派主张“交互即智能”(Interaction is Intelligence)。真正的世界模型不应执着于像素级的视觉重建,而应在抽象的潜在空间(Latent Space)中对环境状态的变化进行预测。模型应关注那些影响决策的关键特征(如车辆的位置、速度),忽略不可预测或无关的细节(如路边树叶的随机摆动)。

●      技术路径: 采用联合嵌入预测架构(JEPA)等自监督学习方法,通过遮挡预测等任务训练模型提取高层语义特征。

●      战略意义: 这种设计理念使得模型在计算上更加高效,且更贴近生物智能的运作方式——人类驾驶员在开车时并不会在大脑中逐像素渲染前方路况,而是构建一个包含障碍物和路径的抽象地图。因此,该流派的模型在机器人控制和自动驾驶规划任务中往往表现出更强的鲁棒性。

3. 关键转折:从观察者到行动者

超越流派之争,2025年世界模型技术最显著的共性进步在于“动作(Action)”维度的正式引入。早期的视频生成模型(如Sora 1.0)本质上是被动的内容生成器,仅根据历史帧预测未来帧,用户无法干预生成过程,AI仅仅是一个“观察者”。

而在2025年涌现的主流模型(如Genie 3、GAIA-2)中,动作条件生成(Action-Conditioned Generation)成为标配。模型不再只是播放录像,而是能够模拟“如果我做一个动作,世界会发生什么变化”的因果情景。这种能力是构建可交互仿真环境和机器人大脑的基础,标志着世界模型正式从媒体生成工具升级为智能系统的动态演练场。

三、生成式仿真流派——追求极致的感官模拟

生成式流派在2025年继续在视听逼真度和模型规模上领跑,致力于打造“视频版GPT”。

1. OpenAI Sora 2:多模态物理模拟器

OpenAI于2025年9月底发布的Sora 2是该流派的集大成者。相比前代,Sora 2在以下几个方面取得了质的飞跃:

●      架构优化: 采用了改进的扩散Transformer架构,重点优化了时空信息的压缩效率和注意力机制,使其能够更好地捕捉长距离的时间依赖关系。

●      对象恒常性突破: 训练过程中涌现出了对画面“主体”的隐式建模能力。例如,当生成一个人物走过走廊被柱子遮挡时,模型依然能“记住”其位置和动作,待其再次出现时保持连贯,解决了以往视频生成中常见的“物体凭空消失”问题。

●      音画同步: Sora 2 原生支持音频生成,实现了视觉事件与听觉信号的因果关联。模型能根据视频中的玻璃破碎或脚步声,同步产出精准对应的声音,进一步增强了模拟的沉浸感。

●      局限性: 尽管在模拟水浪、火焰等流体现象上表现出色,但在处理双摆等混沌系统或精细刚体碰撞时,Sora 2 仍存在“物理幻觉”,其预测轨迹常偏离真实物理公式,表明其本质仍是概率拟合而非解析计算。

2. Runway Gen-4:可控性与艺术性的平衡

Runway在2025年末推出的Gen-4则选择了一条差异化路线,强调“通用世界模型(GWM)”在创意产业中的实用性。

●      导演级控制: 相比Sora 2的自动生成,Gen-4提供了精细的控制工具,如“运动笔刷”(Motion Brush)和高级摄像机轨迹控制。用户可以精确指定画面中物体的运动路径和镜头调度,使其在商业广告和电影制作中极具应用价值。

●      视觉美学: 评测显示,Gen-4在短视频(10秒以内)的画面质感和艺术风格上往往优于Sora 2,但在长时段视频的时空连贯性上略逊一筹,体现了其优化目标更侧重于视觉冲击力而非绝对的物理严谨性。

3. 中国力量的崛起:Kling O1 与 HunyuanVideo

中国团队在2025年的表现令人瞩目,不仅紧跟技术前沿,更在架构创新上做出了独特贡献。

●      Kling O1(快手): 该模型最大的创新在于将大语言模型中的“思维链(Chain-of-Thought, CoT)”引入视频生成,开创了“先推理、后生成”的新范式。在输出画面前,模型会先在内部预演物理过程(如物体下落、碰撞、碎裂的因果链条),再据此生成视频。这种显式的物理逻辑推演大幅提高了复杂交互场景生成的准确性,减少了逻辑谬误。此外,Kling系列还实现了单一Transformer架构内的视听统一生成,无需外挂音频模型。

●      HunyuanVideo(腾讯): 作为开源领域的里程碑,HunyuanVideo采用了“Transformer + 3D VAE”混合架构,在保留高频细节的同时降低了计算复杂度。腾讯团队构建了专门的物理模拟数据集进行微调,使其在遵循基本物理规律方面表现优异,成为学术界研究世界模型的首选基座之一。

四、交互式与三维原生流派——从“观看”走向“游玩”

这一流派致力于突破2D视频的限制,构建可交互、三维立体的虚拟世界。

1. Google DeepMind Genie 3:实时交互式环境

2025年8月发布的Genie 3标志着世界模型进入了实时交互时代。

●      潜在动作模型(LAM): Genie 3的核心突破在于解决了从无标签视频中学习动作模式的难题。研究者利用VQ-VAE将视频压缩为离散Token,通过潜在动作模型自动提取隐含的“动作”表征,使得模型能够在没有人工标注的情况下理解“角色如何运动”。

●      实时沙盒体验: 得益于架构优化,Genie 3 可在消费级GPU上以720p/24fps实时运行。用户可以通过键盘或手柄控制生成的视频环境,仿佛在玩一款画质极高的沙盒游戏。DeepMind将其定位为“代理的模拟器”,旨在为机器人提供一个无限多样且可控的通用训练场,实现技能的零样本迁移。

2. World Labs Marble:原生三维世界构建

李飞飞领衔的World Labs推出的Marble模型,则从数据表示层面进行了革新。

●      3D高斯球表示: 不同于生成平面像素,Marble基于三维高斯球(Gaussian Splatting)技术,直接生成带有深度和结构的3D点云场景。

●      空间一致性: 这种技术路线彻底解决了2D视频生成中的“侧面拉伸”和“穿模”问题。用户可以在生成的场景中自由漫游,从任意角度观察而保持环境结构的一致性。

●      可编辑性: Marble支持通过自然语言对3D场景进行局部编辑(如“将桌子换成椅子”),并可导出为标准3D格式接入Unity等引擎,极大地革新了游戏开发和元宇宙内容制作流程。

五、表征学习流派——服务机器的物理智能

与追求视觉效果的流派不同,表征学习流派专注于为机器智能提供高效的决策支持。

1. Meta V-JEPA 2:去生成化的抽象推理

V-JEPA 2(Video Joint Embedding Predictive Architecture 2)是Meta“反生成”哲学的具体实践。

●      自监督学习: 模型通过遮挡预测任务进行训练,即给定部分视频帧,预测被遮挡部分的高层特征表示而非像素细节。这种训练迫使模型忽略纹理、光照等表面信息,专注于物体形状、运动趋势等本质属性。

●      下游任务表现: 实验证明,作为视觉特征提取器,V-JEPA 2 在机器人抓取、导航等任务上的表现显著优于基于生成式模型的视觉前端,因为它更“理解”物理逻辑,而非仅仅是记忆图像模式。

2. NVIDIA Cosmos:物理仿真数据引擎

NVIDIA推出的Cosmos平台则体现了“仿真即数据”的战略思想。

●      三大子模型: Cosmos包含用于未来状态预测的Predict模型、用于跨场景迁移的Transfer模型和用于决策推理的Reason模型。

●      物理铁律: Cosmos生成的视频严格遵循牛顿物理定律,旨在生成海量高保真的驾驶场景和机器人交互数据。这种合成数据在训练L4/L5级自动驾驶系统时至关重要,弥补了真实极端工况数据(Corner Cases)的匮乏。

六、垂直应用——自动驾驶的革命性落地

在所有应用领域中,自动驾驶是2025年世界模型技术商业化最快、价值最高的场景。世界模型正在重构自动驾驶的感知与决策体系。

1. Tesla FSD:神经世界模拟器

Tesla在2025年发布的FSD v13/14版本中,首次明确提出了“神经世界模拟器(Neural World Simulator)”的概念。

●      端到端架构: 打破了传统感知-规划-控制的模块分割,实现了“光子输入,转向输出”。大规模神经网络在内部构建对环境的动态模拟。

●      思维沙盒: 在车辆行驶过程中,AI会实时进行多种假设场景的模拟推演(“如果前车急刹,我该如何反应?”),并基于模拟结果选择最优动作。这种类似人类驾驶员预判的能力,极大提升了决策的安全裕度。

●      数据护城河: Tesla利用数百万辆车队每日获取的相当于数百年的驾驶数据训练该模型,使其具备了强大的泛化能力。

2. Wayve GAIA-2:4D全景驾驶模拟

英国初创公司Wayve发布的GAIA-2模型,展示了生成式世界模型在自动驾驶研发中的另一重价值。

●      4D世界构建: GAIA-2 能够同步生成来自多个车载摄像头视角的视频,并保持几何一致性,在虚拟环境中完美还原车辆行驶时的3D全景视图。这使得在虚拟环境中进行端到端测试成为可能。

●      可解释性驾驶: Wayve还推出了闭环视觉-语言-动作模型LINGO-2,使得车辆不仅能驾驶,还能用自然语言解释决策依据(如“我正在减速,因为前方有行人”),解决了端到端模型“黑箱”不可解释的痛点。

3. 中国企业的实践

●      Pony.ai(小马智行): 其第七代系统构建了内部世界模型,用于生成海量长尾场景和极端工况仿真数据。依靠仿真增强训练,Pony.ai在广州特定区域实现了无人出租车运营的盈亏平衡。

●      百度Apollo: 积极探索利用生成式世界模型扩充罕见天气(如暴雪、沙尘)和罕见交通行为的数据,以补足真实路测数据的不足,提升算法的鲁棒性。

七、挑战与展望——通往AGI的最后几公里

尽管2025年取得了令人瞩目的成就,但基准测试和实际应用揭示了世界模型仍面临严峻挑战。

1. 物理幻觉与Physics-IQ基准

为了量化评估模型对物理规律的掌握程度,Google DeepMind等机构联合推出了Physics-IQ基准测试。

●      测试结果: 2025年的测试数据显示,Google VideoPoet得分约29.5%,Runway Gen-3约22.8%,早期Sora版本约15%。

●      核心问题: 即便是顶尖模型,在处理多物体碰撞、流体湍流、复杂机械联动等场景时,错误率依然很高。这表明当前的模型更多是“记住”了常见物理模式的概率分布,而非真正理解并能计算底层的物理定律。从“概率拟合”到“精确推理”仍有很长的路要走。

2. 长程一致性与记忆瓶颈

当前模型在生成几秒到几分钟的视频时能保持连贯,但一旦要求连续生成数十分钟甚至更长,往往会出现环境布局漂移、物体属性改变甚至场景崩溃的现象。这说明模型缺乏长期记忆机制,难以在长时间跨度内维护对世界状态的稳定表征。

3. 算力成本与合成数据悖论

●      算力墙: 实时交互的高分辨率世界模型(如Genie 3)对推理算力的需求极高,远超普通LLM,这限制了其在消费端的普及。

●      模型崩溃风险: 随着真实世界高质量视频数据的耗尽,训练越来越依赖合成数据。如果合成数据本身包含物理错误,模型可能会陷入“模型崩溃(Model Collapse)”的恶性循环,不断放大自身的错误认知。

 

结语:世界模型驶向通用智能

展望未来,2025年是世界模型从“概念验证”走向“产业基石”的元年。OpenAI Sora 2让AI具备了视听通感,DeepMind Genie 3将AI变成了可交互的模拟器,Tesla和Wayve则证明了世界模型是自动驾驶的安全基石。

未来的技术演进将聚焦于两大方向:一是消除“物理幻觉”,通过融合逻辑推理(如System 2思维)提升模型的物理准确性;二是突破“长程推理”,赋予AI在更长时间尺度上规划和预测的能力。当AI不仅能逼真地描绘风暴的外观,还能精确计算蝴蝶扇动翅膀引发风暴的因果链条时,我们距离真正的人工通用智能(AGI)就不再遥远。世界模型,正成为连接数字智能与物理现实的终极桥梁。



留下评论