2025年具身智能进展与洞察

前言

2025年标志着人工智能从“语言智能”向“物理智能”的决定性跨越。如果说生成式AI解决了机器对符号世界的理解,那么具身智能(Embodied Intelligence)则赋予了机器感知、接触并重塑物理世界的能力。随着大模型技术的边际效应在纯文本领域开始显现,全球科技巨头与创新力量纷纷将战略重心转向能与物理环境交互的智能体。这一年,从OpenAI发布的Sora 2物理模拟能力,到Google DeepMind推出的Genie 3交互式世界模型,再到中国企业在“大脑+小脑”架构上的集体突围,具身智能已不仅是技术演进的自然延伸,更是大国科技博弈的新高地。本报告旨在剥离市场喧嚣,深入剖析2025年全球具身智能的技术图谱,对比中美技术路线的本质差异,并直面中国在这一进程中面临的算力掣肘、数据困境与产业机遇,为决策者提供冷静、客观的战略参考。

一、2025年全球具身智能技术全景

2025年的技术主轴是构建能够理解物理规律并执行复杂任务的“世界模型”与“行动模型”。在世界模型领域,生成式与表征式路线的竞争日趋白热化。OpenAI发布的Sora 2不仅在视频生成上实现了物理一致性的显著提升,更通过音画同步与多镜头一致性,初步具备了作为“物理世界模拟器”的潜质,试图通过海量视频数据让AI“涌现”出对重力、碰撞等物理定律的隐式理解。与此同时,Google DeepMind推出的Genie 3则展现了另一种范式,它不再仅仅是生成被动的视频流,而是构建了一个可交互的虚拟环境(Playable Worlds),允许智能体在其中通过潜在动作模型(Latent Action Model)进行试错与训练,直接服务于机器人的策略学习。相比之下,Meta坚持的V-JEPA 2(联合嵌入预测架构)走出了“非生成”的第三条道路。该模型不预测像素细节,而是在抽象的特征空间预测环境状态的变化,这种“抓大放小”的策略在机器人规划与导航任务中展现了极高的计算效率与鲁棒性,证明了完全重构像素并非理解物理世界的唯一路径。

在行动控制层面,“视觉-语言-动作”(VLA)模型成为连接感知与执行的核心桥梁。以OpenVLA和Physical Intelligence发布的π₀(Pi-Zero)为代表,端到端模型试图将视觉输入直接映射为关节力矩,通过流匹配(Flow Matching)技术实现了50Hz的高频动作输出,解决了大模型控制机器人时的“手抖”与延迟问题。然而,端到端模型对高质量数据的贪婪需求与泛化能力的短板依然存在,这促使产业界探索更为务实的混合架构。RoboOS等系统的出现,确立了“具身大脑(Embodied Brain)”负责高层规划、“小脑(Cerebellum)”负责底层实时控制的分层架构标准,这种设计在保证智能的同时,有效兼顾了工业现场对实时性与安全性的严苛要求 。

二、硬件重塑与产业化:成本下探与架构固化 

2025年,具身智能的硬件载体经历了从“原型机”到“量产机”的蜕变。宇树科技(Unitree)推出的G1人形机器人将售价下探至1.6万美元区间,标志着通用人形机器人进入了消费级门槛,其背后是高扭矩密度电机与一体化关节技术的成熟。与此同时,专用计算芯片的问世为具身智能提供了物理载体。地平线子公司D-Robotics发布的RDK S100开发套件,创新性地在单芯片上集成了CPU(逻辑与调度)、BPU(AI感知)与MCU(实时控制),在硬件层面固化了“脑-小脑”架构。这种异构计算设计不仅降低了功耗,更保证了从感知到动作的毫秒级闭环响应,为机器人“走入家庭、走进工厂”提供了高性价比的算力底座 。

三、中美技术路线与格局对比:算力暴力美学 vs 架构工程红利 

纵观2025年全球格局,中美两国在具身智能领域呈现出截然不同的发展路径。美国阵营依托NVIDIA的绝对算力优势与OpenAI、Google的算法定义权,依然在追求“通用人工智能(AGI)”的暴力美学。其核心逻辑是通过Scaling Law(尺度定律),利用数万张H100/B200芯片训练超大规模的端到端VLA模型,试图用巨大的算力冗余“淹没”物理世界的复杂性。这种路径虽然上限极高,但不仅成本高昂,且对能源与基础设施提出了极高要求。

相比之下,中国阵营在算力受限的客观约束下,走出了一条“工程红利”与“场景驱动”并重的差异化道路。中国企业更倾向于采用“大脑+小脑”的解耦架构,通过将高层逻辑推理(由云端大模型完成)与底层运动控制(由边缘侧小模型完成)分离,巧妙规避了对单体端到端超大模型的依赖。这种架构不仅降低了对顶尖算力芯片的门槛,更适配中国庞大且复杂的制造业场景。华为Ascend 910C芯片的规模化部署,结合“三倍产出”策略,在推理侧与训练侧逐步实现了对海外算力的替代,支撑了阿里、字节跳动等企业的模型训练需求,虽然在单点性能上仍有差距,但通过集群优化与软件栈(如CANN、MindSpore)的打磨,已构筑起不可忽视的自主生态。

四、中国具身智能发展的深层评价:宏观繁荣与微观困境 

中国具身智能的发展呈现出一种鲜明的二元结构:宏观层面的产业繁荣与微观层面的结构性困境并存。在宏观层面,得益于“十五五”规划的前瞻布局与地方政府(如深圳、北京)的激进投资,中国拥有全球最完整的机器人供应链与最丰富的数据采集场景。Galbot(银河通用机器人)等初创企业单轮融资超10亿元人民币,显示了资本市场对具身智能作为“新质生产力”的高度认可。中国制造业的“数据工厂”模式,通过规模化部署机器人收集真实物理交互数据,正在形成区别于文本数据的独特壁垒。

然而,深入微观肌理,中国具身智能产业面临着“龙与地下城”式的多重挑战。首先是“算力鸿沟”的硬约束。尽管国产芯片进步神速,但在训练万亿参数级的世界模型时,集群互联效率与稳定性仍是瓶颈,迫使企业更多在应用层做“修补”而非底层做“突破”。其次是“数据饥渴”与“人工汗水”的矛盾。相比于美国利用合成数据(Synthetic Data)与仿真环境(Sim-to-Real)的自动化流水线,中国大量高质量数据的获取仍依赖于昂贵且低效的人工标注。虽然“数据工厂”概念被提出,但现阶段许多所谓的高质量数据依然是靠“堆人力”清洗出来的,这种劳动密集型的数据生产方式难以支撑模型能力的指数级跃升。此外,商业模式的内卷化也是不容忽视的隐忧。由于缺乏类似SaaS的高毛利商业传统,大量AI企业被迫陷入To G(面向政府)的项目制竞争,导致技术研发碎片化,难以形成通用的技术飞轮,资本寒冬与人才流向海外科技巨头的趋势更加剧了这一困境。

五、结语与展望

2025年的具身智能,正处于从“技术验证”向“规模落地”跨越的前夜。未来三年,随着物理世界模拟器(World Simulators)的成熟,机器人将在虚拟空间完成99%的训练,从而彻底打破物理数据匮乏的摩尔定律限制。对于中国而言,未来的决胜关键不在于盲目追随美国的纯端到端路线,而在于利用“世界工厂”的场景优势,构建自主可控的“物理数据-国产算力-分层架构”闭环。

面对算力封锁与技术脱钩的现实,中国必须保持战略定力,一方面通过架构创新(如稀疏计算、脑-小脑协同)对冲算力短板,另一方面需警惕“低水平重复建设”,将资源集中于高质量物理数据集的构建与核心仿真引擎的突破。具身智能的竞争是一场马拉松,中国唯有在微观层面解决数据自动化与算力自主化的结构性难题,才能将宏观的产业链优势转化为真正的智能霸权,最终在智能机器时代占据一席之地。



留下评论