
现有的机器人AI有一个根本性的局限:它们只是在"反应",而不是在"预见"。给一个VLA模型看一张图,它会告诉你下一步该做什么动作,但它并不真正"知道"做了这个动作之后,世界会变成什么样子。
复旦大学联合新加坡国立大学的研究团队近期发布了具身AI领域首篇系统性综述,正式提出并定义了"世界行动模型"(World Action Models,WAMs)这一新范式。这项工作试图回答一个核心问题:如果让机器人在行动之前先预测后果,具身智能会走向哪里?

理解WAMs,需要先理解它在试图解决什么问题。过去几年,以RT-2、OpenVLA、π0为代表的视觉语言行动模型取得了显著进展,它们把预训练的视觉语言能力迁移到了机器人控制上,展现出令人印象深刻的泛化能力。
但这类模型有一个本质缺陷:它们学的是从观察到动作的直接映射,没有对物理世界的动态变化建立任何预测模型。换句话说,它们是在凭直觉行动,而不是在推理行动的后果。
WAMs的定义就是从这里出发的。研究团队将其正式定义为:统一环境动态建模与运动控制的具身基础模型,建模的是未来状态与动作的联合分布,而非仅仅是动作本身。这个区别看起来很技术性,但背后的含义很直白:WAMs在生成动作的同时,也在预测"做了这个动作之后世界长什么样"。
具备这种前瞻能力的系统,理论上能够更好地应对新环境,因为它对物理世界有更深的理解,而不只是记住了"在这种情况下该这么动"的规律。更重要的是,WAMs可以利用那些没有动作标注的海量人类视频数据来学习世界动态,这大幅拓展了可用的训练数据边界。

综述将现有WAM方法归纳为两大架构类型,这个分类本身就很有价值。
级联WAM采用先预测状态、再生成动作的流水线设计,两个模块可以独立训练,代表方法包括UniPi、AVDC等。这条路线的优势是分工清晰、工程上容易落地,但两个阶段之间的误差会累积,前一步的预测偏差会直接拖累后一步的动作质量。
联合WAM则在一个统一模型中同时完成状态预测和动作生成,GR系列、CoT-VLA、PAD等方法属于这一路线。它的优势是状态和动作之间的因果关系更强,泛化能力更好,但代价是计算量大、训练复杂度高。
目前文献中这两条路线缺乏公平的系统对比,谁优谁劣在很大程度上取决于具体任务和部署场景。这也是综述明确指出的一个开放问题。
训练数据方面,综述梳理了四类核心来源:机器人遥操作数据、UMI风格的便携式人类演示、仿真数据,以及互联网规模的自我中心人类视频。这四类数据各有侧重,遥操作数据精度高但成本高,互联网视频海量但缺乏动作标注,如何合理混合使用,目前还没有定论。
说到落地,WAMs面临的最现实瓶颈是推理速度。当前最快的WAM系统推理频率仅有7Hz,而主流VLA模型可以达到50Hz。这个差距意味着WAMs目前还无法支持很多需要快速闭环控制的实际任务。研究者提出的方向包括用潜在特征预测替代像素级预测来降低计算量,以及通过模型量化和异步执行来提升效率,但这些方法距离真正实用化还有一段距离。
评估体系的缺失同样值得关注。现有评估指标要么只看视觉生成质量,要么只看动作执行效果,缺少能够同时衡量状态预测和动作生成之间因果一致性的联合指标。这让不同方法之间的横向比较变得困难,也给领域的进步判断带来了模糊性。
WAMs的思路代表了具身AI从"反应式"走向"预见式"的一次重要跃迁。它尚未成熟,挑战清单比成果清单更长。但方向的价值,有时候比当下的进展更重要。
更新时间:2026-05-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号