很强!人形机器人VLA 驱动全身协同在智元得到验证,行走与操作同时完成

让人形机器人能够像人一样完成装箱、搬运、推车等移动操作任务,一直是人们对具身智能的期待。近日,来自香港大学、智元AGIBOT、复旦大学和上海创智学院的联合研究团队提出了WholeBodyVLA,一种面向真实世界的人形机器人全身Vision–Language–Action 框架。该工作基于智元灵犀X2研究发布,将VLA(视觉语言动作模型)扩展至双足人形机器人的全身控制,验证了其在全身移动操作任务中的可行性。

与原地操作相比,移动操作的难点不在于单一技能,而在于行走与操作必须在同一任务中长期、稳定地协同发生。围绕这一挑战,WholeBodyVLA 总结出限制移动操作发展的两个核心问题:真机数据稀缺和运动执行中的不稳定性。

相比原地操作,人形机器人在移动操作任务中的数据采集要“贵”得多。往往需要不止一个数采员同时遥操机器人上半身进行操作、下半身完成行走,这通常只能通过混合方案实现(例如 VR 控制上半身、遥控器控制下半身),这种方式操作流程长、效率低;或者使用全身动捕系统,但价格高昂。

相比纯粹的操作,移动操作对运动精准性和稳定性的要求高的多,任何偏离都可能导致目标操作物体脱离相机视野和工作空间。即使VLA输出了正确的运动指令,下半身控制器仍然有概率执行失败,例如出现走歪、踉跄等现象。

为了解决这些挑战,研究团队提出了WholeBodyVLA,并引入了两个关键创新:从人类视频中学习和面向移动操作的RL控制器。前者是WholeBodyVLA 通过从第一视角人类视频中学习移动与操作的潜在动作,操作相关的潜在动作则基于 AgiBot World 数据集进行建模,后者是通用连续运动控制目标简化为一组离散运动指令,仅保留移动操作必要的强化学习训练目标,从而显著提升了控制器在运动执行时的稳定性。

研究团队在 智元灵犀X2人形机器人上进行了大量真机实验验证,发现 WholeBodyVLA 具备大范围、长程移动操作任务,距离泛化性和操作泛化性,地形泛化性。总的来说,WholeBodyVLA 展示了 VLA 扩展到双足人形机器人自主全身控制的可行路径。

原标题:《很强!人形机器人VLA 驱动全身协同在智元得到验证,行走与操作同时完成》

栏目主编:戎兵 题图来源:均为受访者提供

来源:作者:文汇报 沈湫莎

展开阅读全文

更新时间:2025-12-19

标签:科技   人形   机器人   全身   操作   下半身   控制器   长程   上半身   团队   目标

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top