从"看到"到"预见"：世界行动模型或将重新定义机器人智能的边界

现有的机器人AI有一个根本性的局限：它们只是在"反应"，而不是在"预见"。给一个VLA模型看一张图，它会告诉你下一步该做什么动作，但它并不真正"知道"做了这个动作之后，世界会变成什么样子。

复旦大学联合新加坡国立大学的研究团队近期发布了具身AI领域首篇系统性综述，正式提出并定义了"世界行动模型"（World Action Models，WAMs）这一新范式。这项工作试图回答一个核心问题：如果让机器人在行动之前先预测后果，具身智能会走向哪里？

一个比VLA更大的野心

理解WAMs，需要先理解它在试图解决什么问题。过去几年，以RT-2、OpenVLA、π0为代表的视觉语言行动模型取得了显著进展，它们把预训练的视觉语言能力迁移到了机器人控制上，展现出令人印象深刻的泛化能力。

但这类模型有一个本质缺陷：它们学的是从观察到动作的直接映射，没有对物理世界的动态变化建立任何预测模型。换句话说，它们是在凭直觉行动，而不是在推理行动的后果。

WAMs的定义就是从这里出发的。研究团队将其正式定义为：统一环境动态建模与运动控制的具身基础模型，建模的是未来状态与动作的联合分布，而非仅仅是动作本身。这个区别看起来很技术性，但背后的含义很直白：WAMs在生成动作的同时，也在预测"做了这个动作之后世界长什么样"。

具备这种前瞻能力的系统，理论上能够更好地应对新环境，因为它对物理世界有更深的理解，而不只是记住了"在这种情况下该这么动"的规律。更重要的是，WAMs可以利用那些没有动作标注的海量人类视频数据来学习世界动态，这大幅拓展了可用的训练数据边界。

两条路线，各有取舍

综述将现有WAM方法归纳为两大架构类型，这个分类本身就很有价值。

级联WAM采用先预测状态、再生成动作的流水线设计，两个模块可以独立训练，代表方法包括UniPi、AVDC等。这条路线的优势是分工清晰、工程上容易落地，但两个阶段之间的误差会累积，前一步的预测偏差会直接拖累后一步的动作质量。

联合WAM则在一个统一模型中同时完成状态预测和动作生成，GR系列、CoT-VLA、PAD等方法属于这一路线。它的优势是状态和动作之间的因果关系更强，泛化能力更好，但代价是计算量大、训练复杂度高。

目前文献中这两条路线缺乏公平的系统对比，谁优谁劣在很大程度上取决于具体任务和部署场景。这也是综述明确指出的一个开放问题。

训练数据方面，综述梳理了四类核心来源：机器人遥操作数据、UMI风格的便携式人类演示、仿真数据，以及互联网规模的自我中心人类视频。这四类数据各有侧重，遥操作数据精度高但成本高，互联网视频海量但缺乏动作标注，如何合理混合使用，目前还没有定论。

说到落地，WAMs面临的最现实瓶颈是推理速度。当前最快的WAM系统推理频率仅有7Hz，而主流VLA模型可以达到50Hz。这个差距意味着WAMs目前还无法支持很多需要快速闭环控制的实际任务。研究者提出的方向包括用潜在特征预测替代像素级预测来降低计算量，以及通过模型量化和异步执行来提升效率，但这些方法距离真正实用化还有一段距离。

评估体系的缺失同样值得关注。现有评估指标要么只看视觉生成质量，要么只看动作执行效果，缺少能够同时衡量状态预测和动作生成之间因果一致性的联合指标。这让不同方法之间的横向比较变得困难，也给领域的进步判断带来了模糊性。

WAMs的思路代表了具身AI从"反应式"走向"预见式"的一次重要跃迁。它尚未成熟，挑战清单比成果清单更长。但方向的价值，有时候比当下的进展更重要。

展开阅读全文

更新时间：2026-05-20

标签：科技边界机器人模型定义智能世界动作数据状态方法路线能力

1 2 3 4 5

从"看到"到"预见"：世界行动模型或将重新定义机器人智能的边界

一个比VLA更大的野心

两条路线，各有取舍

伊朗出手！霍尔木兹海峡新规震动全球，A股这些板块将迎风口

未来五年汉中着力打造全域创新发展格局

这只基金限购了！收益很猛！近一年375%，近两年465%

2026年5月更新：重型货架供应商深度解析与选择指南

不造手机就活不下去？估值8000亿的OpenAI，为什么要造手机？

红米K100突然曝光，这功能我等了四年

618三台神价旗舰，等等党这次真赢了

A股：大盘精准跌4131.53点+20日线，不出意外，周二行情这么走！

市场止跌信号已经明确，主升浪随时重新启动，散户别被洗下车

越南电车市占率 80%？拆穿数据真相！中国电车出海，就只靠便宜？

突发，利好不断，但缩量回调，而三个板块放量，什么信号（附股）

千亿帝国轰然倒塌！公司实控人被捕、负债27亿，数万股民被割韭菜

红魔发布11S Pro系列重构游戏手机体验这次能破局吗

Pocket 4一机难求，OV强势入局：口袋云台相机为何突然成了新战场

两个月前刚喊涨价，现在价格却集体大下降！手机厂商这次真的慌了

越南电车市占率 80%？拆穿数据真相！中国电车出海，就只靠便

智能手环无屏幕？它靠极致简洁，竟成了精英运动员的贴身教

光峰科技取得显示装置相关专利，单板式液晶投影装置实现

瑞晟智能子公司上榜这一严重不良行为信用惩戒企业名单

A股：今天行情不太对劲，科技股出手护盘，这是“老乡别走”

智能指控｜俄罗斯无人机AI智能指控系统

正邦科技：截至2026年4月20日，公司股东总数为18.69万户

联结世界桥梁，传承春城文脉长春2026国际博物馆日特别

红板科技凭啥成为A股PCB新龙头？深度拆解其核心护城河

@金昌人世界博物馆日——以文脉为轴，赴一场跨越时空的

从&quot;看到&quot;到&quot;预见&quot;：世界行动模型或将重新定义机器人智能的边界

一个比VLA更大的野心

两条路线，各有取舍

从"看到"到"预见"：世界行动模型或将重新定义机器人智能的边界