小毋今天想给大家好好聊一聊,机器人是如何帮助我们把散落的衣服放进洗衣机,这些机器人是如何思考的,还有这群年轻工程师如何为机器人造脑,背后藏着怎样的技术突破与行业野心。


给机器人造脑,核心是解决“感知-理解-执行”的闭环,但在具生智能浪潮兴起前,这个闭环始终难以打通。
北京人形机器人创新中心的研发团队发现,哪怕是全球顶尖的通用多模态模型,面对真实物理世界也会“犯傻”。

团队曾做过一个简单实验,让模型指挥机器人搭建三层乐高积木,这个两三岁小孩都能完成的任务,顶尖模型却完全搞不定。
既无法区分积木的大小,也不知道搭建的先后顺序,甚至会把最大的积木当成最小的来摆放。
更意外的是,模型能写诗、解数学题,却看不懂“把水杯放在空桌子上”这样的基础空间指令,连物品的前后左右关系都分不清。

这背后的核心问题的是,通用大模型是基于互联网二维数据训练的,缺乏对三维物理世界的理解。
就像李飞飞教授指出的,当前大模型的空间感知能力,甚至不及一个三岁孩童。
机器人要在真实世界行动,不仅要“看见”物品,还要理解空间关系、物理规律,知道“杯子倒了水会洒”“软物需要轻拿”,这些都是通用模型欠缺的能力。

更关键的是,传统机器人训练方式效率极低,行业里流行“堆数据、堆算力”,就像一头大象每天要吃几十公斤食物,才能长一点点体重。
大模型训练也是如此,需要海量数据、数千张算力卡和巨额资金,就算这样,数据利用率也很低。

对于创业公司来说,这种“烧钱式”训练根本不现实,这也让机器人造脑陷入两难,不堆数据模型性能不行,堆数据又负担不起。

面对困局,北京人形机器人创新中心团队跳出了“堆数据”的思维定式,研发出一套名为DPPO的训练算法,让模型训练效率实现质的飞跃。

这套算法的核心灵感来自人类的认知心理学,就像高考学子备考一样,不搞题海战术,而是精准攻克薄弱环节。
DPPO算法的训练过程分成两步,“自主刷题”,对应强化学习阶段。
模型会先观看大量视频,学习人类的动作逻辑,然后在真实场景中自主练习任务。

抓取物品、摆放东西,练习中会不断尝试,记录成功和失败的案例,就像学生做完一套试卷,标出不会的题目。
这个阶段,模型能自主发现自己的弱点,分不清左右、不会判断物品硬度。
“名师辅导”,对应有监督微调阶段,模型会把自主练习中发现的薄弱环节集中起来,针对性训练。

反复练习区分物品大小、判断抓取力度,就像学生请老师讲解错题,直到完全掌握。
更厉害的是,这种训练方式能避免“学了新的忘了旧的”,模型学会抓取软物后,不会忘记之前掌握的抓取硬物的能力,就像人类学会开车后,不会忘记骑自行车。
这套“精准提分”的训练方法,让数据利用率大幅提升,团队只用了180万条数据,就训练出性能出众的模型,其中还包含大量视频数据。

视频能提供时序和空间信息,帮助模型理解物体运动轨迹和相对位置。
相比行业内动辄千万级、亿级的数据量,这个规模堪称“轻量化”,但性能却不落下风。
在核心能力上,PelicanVL模型实现了多项突破,空间理解方面,它能精准判断物品的位置关系,完成“在空桌子上放水杯”“把鞋子放进鞋架”等任务。

物理推理方面,它能看懂视频并判断任务是否完成,在英伟达发布的Cosmos基准测试中,只有它能准确识别“寿司已被夹出”,并给出“停止操作”的指令。
泛化能力方面,它能适配家庭、商超、实验室等多个场景,就算遇到没见过的物品,也能根据形状、材质判断抓取方式。

模型还分为7B和72B两个版本,适配不同场景,72B版本参数量大,理解能力强,适合家庭、商业等需求复杂的场景。
7B版本轻量化,适合工业等流程固定的场景,后续团队还计划开源3B小模型,让更多科研院所、学生能参与研究,降低具生智能的入门门槛。

2024年,团队做出了一个重要决定,将PelicanVL模型开源,包括7B和72B两个版本,这也是当前具生智能领域最大尺寸的开源模型,做出这个决定,团队有自己的深层考量。

先是推动行业技术迭代,当前具生智能领域技术路线分散,尤其是在VOA(视觉-语言-动作)方向,不同公司的接口标准、训练方法各不相同,大家各自为战,浪费了大量资源。
团队开源模型,相当于提供了一个性能出色的“公共基座”,其他开发者不用再从零开始训练,只需在这个基础上优化,就能专注于解决更细分的问题,比如提升抓取精度、适配更多场景。

其次是吸引更多人参与,具生智能是一个庞大的领域,需要软件、硬件、算法等多方面人才共同发力。
团队希望通过开源,让学生、科研人员、中小企业都能用上优质模型,降低行业准入门槛。

就像团队里的北大实习生悠悠,本科是数学专业,通过参与项目接触到具生智能,现在已经成为核心代码开发者,团队希望更多年轻人能被吸引进来,为行业注入新鲜血液。
更重要的是,开源能加速技术落地,机器人造脑的最终目标,是让机器人走进家庭、工厂、商超,帮人类解决实际问题。

但单个团队的力量有限,开源后,全球开发者都能为模型提建议、补漏洞,让模型快速迭代。
有人发现模型在某类材质物品的抓取上表现不好,就能针对性优化,有人需要适配特定场景,就能开发对应的插件,这些都能让机器人更快从实验室走向现实。

值得一提的是,这个研发团队里有多位优秀的女性工程师,她们负责算法设计、数据处理、代码开发等核心工作,用实力打破了“硬科技领域男性占主导”的偏见。
团队把她们推到台前,也是希望让更多人看到女性在科技领域的贡献,吸引更多女性加入具生智能行业。

如今,PelicanVL模型已经在多个基准测试中表现亮眼,在FreeSpace任务中,它能精准判断物品摆放位置,不会把水杯放在花盆上。
在RobotSpatial测试中,能准确识别物品位置,在长视频理解任务中,能连贯分析几分钟的视频内容,做出正确决策,这些性能的提升,都在让机器人“大脑”越来越好用。

从通用模型的“空间盲区”,到DPPO算法的“精准提分”,再到PelicanVL模型的开源共享,北京人形机器人创新中心团队用技术创新打破了机器人造脑的困局。
具生智能的时代才刚刚开始,未来机器人不仅能帮我们做家务、干农活,还能走进工厂、医院,成为生活和工作的好帮手。

而这场由开源引发的技术协作,或许会让这个未来提前到来,正如团队所说,他们期待和行业一起,让智能不再停留在屏幕上,而是真正走进真实世界,与人类共同构建融合文明。
更新时间:2025-12-01
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号