Sora之死,与世界模型之梦


六个月,一场盛大的葬礼

2026年3月24日,旧金山。OpenAI发布了一则简短的公告:Sora,那个曾经让全世界屏息的AI视频生成器,即将关闭。iOS应用、API、Sora.com——全部下线

六个月。从万众瞩目到草草收场,Sora的一生,比它生成的那些15秒短视频还要短暂。

时间倒回2025年9月,Sora独立App上线当天冲上App Store榜首,下载量在首月飙到330万。好莱坞的高管们坐不住了。三个月后,迪士尼签下了一份为期三年的授权协议——200多个来自漫威、皮克斯和星球大战的角色,将在Sora的世界里被用户随意召唤。一笔10亿美元的投资,正在走流程。

然后呢?

1月,下载量暴跌45%。2月,再跌。到关停前夕,月下载量从巅峰的330万萎缩到110万,App Store百强榜上已经找不到Sora的名字。累计应用内收入?210万美元。对于一家估值7300亿美元的公司来说,这个数字甚至构不成一个舍入误差。

迪士尼的10亿美元?一分钱也没到账。交易取消。

败在哪里?

Sora的失败不是技术问题——至少不完全是。

论画质,Sora 2的生成效果在业内仍属一流。但AI视频生成这条赛道,在2026年初已经变成了一场全面战争。来看看战场上的对手们:

字节跳动的Kling 3.0,2026年2月上线,被评价为”功能密度最高的视频模型”——不一定在任何单一维度上最好,但它什么都能做,而且是市面上最便宜的按量付费方案。Google的Veo 3.1,在真实感渲染上达到了”训练有素的观察者在对照测试中难以辨别”的水平。Runway Gen-4.5,则在风格化和VFX方向上打出了差异化。

换句话说,这个市场已经不存在”谁是最好的”这个问题了。正确的问题是:这个镜头该交给谁来渲染? 专业用户在不同模型之间反复切换,像调酒师一样混搭——Kling的性价比、Veo的真实感、Runway的艺术性。

而Sora呢?它是一个消费级的短视频玩具。它试图做的事情,是让普通人在手机上玩”AI版TikTok”。但普通人对AI视频的新鲜感,消退的速度比Sam Altman想象的要快得多。当你生成了第10个”会说话的猫骑着恐龙”的视频后,你还会打开这个App吗?

Sora的真正问题,不是它不够好。而是AI视频生成作为一个消费级产品,还没有找到自己的PMF(Product-Market Fit)。

战略大逃杀:算力是新石油

但关停Sora的深层原因,远比用户留存率更冷酷。

OpenAI正在为Q4的IPO做准备。估值已飙到7300亿甚至逼近万亿美元大关。年化收入250亿美元,听起来很多,但OpenAI告诉投资人,到2030年它计划在算力上投入6000亿美元。没错,六千亿

在这种级别的烧钱竞赛中,每一块GPU都是战略资源。Sora在吞噬着大量算力,产出的却是每月210万美元的应用内收入和一堆会说话的猫视频。与此同时,Anthropic在编程助手赛道上咄咄逼人,Google在搜索+AI的整合上步步紧逼。

选择题很简单:把GPU留给Sora让用户生成猫视频,还是把它们投入到编程、推理、企业级工具这些真正能赚钱的战场?

Sam Altman选了后者。Sora的死,不是自然死亡——是战略献祭。

“世界模型”:一个更大的赌注

但故事到这里还没完。OpenAI在关停公告里埋了一句意味深长的话:”Sora研究团队将继续专注于世界模拟研究,以推动机器人技术的发展。”

世界模型(World Models)——这是2026年AI圈最火的概念之一。简单说,世界模型不只是生成一段好看的视频,它要理解物理世界的运行规律:重力、碰撞、光影、因果。不是画一个苹果从树上掉下来,而是理解为什么苹果会掉下来

如果说视频生成是”画皮”,世界模型就是”造骨”。

这块领地上,已经站满了重量级选手:

李飞飞的World Labs,2026年2月刚融了10亿美元,估值54亿,Autodesk投了2亿进去。它的产品Marble能从一张图片生成可交互的3D世界,保持空间一致性和物理逻辑——你可以在浏览器里实时漫游。

Yann LeCun的AMI Labs,Meta首席AI科学家亲自下场,融了5亿欧元,估值30亿。LeCun多年来反复宣称”大语言模型永远无法实现通用智能,世界模型才是正途”,现在他押上了自己的声誉来证明这一点。

Google DeepMind的Genie 3,2025年8月发布,第一个实时交互的通用世界模型,能以24帧每秒生成可导航的3D世界。

还有Runway(融了3.15亿美元转向世界模型)、NVIDIA的Cosmos平台(下载量超200万次)、以及一众初创公司。

OpenAI有几成胜算?

那么,OpenAI从视频生成赛道退出,转身杀入世界模型领域,它的胜算有多大?

先看优势。OpenAI在Sora上积累的视频理解能力不是白费的——视频生成和世界模拟在底层技术上有大量重叠。它有业内最顶尖的研究人才、近乎无限的融资能力、以及全球最大的AI用户基数。更关键的是,OpenAI把世界模型定位为”为机器人服务”,这意味着它瞄准的不是消费者,而是工业级应用——一个远比短视频生成庞大的市场。

再看劣势。它来得太晚了。 World Labs、DeepMind、AMI Labs已经在这个赛道上跑了一到两年。李飞飞和LeCun都是世界模型领域的学术奠基人,不是半路出家。而OpenAI的世界模型团队,是从一个刚刚被关停的消费产品组”转型”而来的——这种组织转型的摩擦成本不可低估。

更深层的问题是:OpenAI的基因是语言模型,不是物理世界模型。 从GPT到ChatGPT,它的一切成功都建立在文本理解和生成之上。世界模型需要对3D空间、物理定律、因果推理有根本不同的理解框架。这不是加几个GPU就能解决的事。

如果让我给一个粗略的评估:在世界模型赛道上,OpenAI有三成胜算进入前三。它不会输得很惨——资源太多了——但也很难成为领跑者。李飞飞的World Labs和Google DeepMind,才是这场竞赛中最有可能定义规则的玩家。

最后一幕

2026年的某一天,Sora的服务器将被彻底关闭。那些用户生成的会说话的猫、骑恐龙的宇航员、漫威角色的搞笑视频,都将消失在数字虚空中。

但Sora团队的工程师们不会失业。他们会转身走进另一间实验室,开始训练一个不再生成视频、而是理解世界的模型。

Sam Altman押注的是一个更大的赌局:从”造梦者”变成”造世界者”。这个赌注是否值得?也许要等到第一台由OpenAI世界模型驱动的机器人,真正在物理世界中稳稳地接住一个苹果的那天,我们才能知道。

在那之前,苹果还在掉落。而所有人都在竞赛着去理解——它为什么会掉。


参考资料与延伸阅读:



留下评论