很强！人形机器人VLA 驱动全身协同在智元得到验证，行走与操作同时完成

让人形机器人能够像人一样完成装箱、搬运、推车等移动操作任务，一直是人们对具身智能的期待。近日，来自香港大学、智元AGIBOT、复旦大学和上海创智学院的联合研究团队提出了WholeBodyVLA，一种面向真实世界的人形机器人全身Vision–Language–Action 框架。该工作基于智元灵犀X2研究发布，将VLA（视觉语言动作模型）扩展至双足人形机器人的全身控制，验证了其在全身移动操作任务中的可行性。

与原地操作相比，移动操作的难点不在于单一技能，而在于行走与操作必须在同一任务中长期、稳定地协同发生。围绕这一挑战，WholeBodyVLA 总结出限制移动操作发展的两个核心问题：真机数据稀缺和运动执行中的不稳定性。

相比原地操作，人形机器人在移动操作任务中的数据采集要“贵”得多。往往需要不止一个数采员同时遥操机器人上半身进行操作、下半身完成行走，这通常只能通过混合方案实现（例如 VR 控制上半身、遥控器控制下半身），这种方式操作流程长、效率低；或者使用全身动捕系统，但价格高昂。

相比纯粹的操作，移动操作对运动精准性和稳定性的要求高的多，任何偏离都可能导致目标操作物体脱离相机视野和工作空间。即使VLA输出了正确的运动指令，下半身控制器仍然有概率执行失败，例如出现走歪、踉跄等现象。

为了解决这些挑战，研究团队提出了WholeBodyVLA，并引入了两个关键创新：从人类视频中学习和面向移动操作的RL控制器。前者是WholeBodyVLA 通过从第一视角人类视频中学习移动与操作的潜在动作，操作相关的潜在动作则基于 AgiBot World 数据集进行建模，后者是通用连续运动控制目标简化为一组离散运动指令，仅保留移动操作必要的强化学习训练目标，从而显著提升了控制器在运动执行时的稳定性。

研究团队在智元灵犀X2人形机器人上进行了大量真机实验验证，发现 WholeBodyVLA 具备大范围、长程移动操作任务，距离泛化性和操作泛化性，地形泛化性。总的来说，WholeBodyVLA 展示了 VLA 扩展到双足人形机器人自主全身控制的可行路径。

原标题：《很强！人形机器人VLA 驱动全身协同在智元得到验证，行走与操作同时完成》

栏目主编：戎兵题图来源：均为受访者提供

来源：作者：文汇报沈湫莎

展开阅读全文

更新时间：2025-12-19

标签：科技人形机器人全身操作下半身控制器长程上半身团队目标

1 2 3 4 5

很强！人形机器人VLA 驱动全身协同在智元得到验证，行走与操作同时完成

影石Insta360发布2025冬季全景更新

南京导航集体罢工敲响警钟：数字时代，这样的漏洞必须彻查整改

又一个年产2万吨硅碳负极材料一期项目投产

逐际动力TRON 2具身机器人发布：可变化三种形态，4.98万起

“资源化”转向“价值化”，打通数据要素产业化应用的“最后一公里”

文汇海报 | “领航号”盾构机掘进破万米大关

政企携手！鹤山为中小企业送上“出海秘籍”

浩瀚太空再添一颗“中国星” “戚发轫星”命名仪式举行

明年重要事情定了！中央明确：大量的钱将流向这里，瞅准这几件事

注意了！微信这个常用功能不收费！

自从用上了小艺建议，我过上了“被宠坏”的生活

荣耀Win系列游戏手机性能曝光：荣耀Win系列电池散热专为游戏优化

2025亚洲周刊年度汉字

3000-4000元手机怎么选？2025年末旗舰级影像手机横评与推荐清单

海南封关首日，居民排长队购首批榴莲，超市：每斤78元至98元，价格低于平时的一半

逐际动力TRON 2具身机器人发布：可变化三种形态，4.98万起

财联社12月18日电，美国银行将美光科技评级从“中性”上

湖北襄阳凤凰咀遗址博物馆完成“正负零”节点目标

无锡惠山区企业入围！“2025德勤中国高科技高成长50强及

第十代创维壁纸电视A7H Pro新品预约：科技引领行业实至

Nova系列模型拼不过竞品，亚马逊通用人工智能团队负责人

日立自研人形机器人亮相，将上岗工厂代替人类“布线安装

盘后突发利好！全球首条人形机器人产线落地，千亿赛道迎爆

美国后院局势升级，特朗普将三国列入打击名单，最终目标已

银行ETF大涨；美国投资者今年爆买中国科技ETF丨ETF晚报