北京团队放大招!开源全球最大机器人大脑,让机器学会轻拿轻放

小毋今天想给大家好好聊一聊,机器人是如何帮助我们把散落的衣服放进洗衣机,这些机器人是如何思考的,还有这群年轻工程师如何为机器人造脑,背后藏着怎样的技术突破与行业野心。

造脑困局:通用大模型连三岁小孩的积木都搭不好?

给机器人造脑,核心是解决“感知-理解-执行”的闭环,但在具生智能浪潮兴起前,这个闭环始终难以打通。

北京人形机器人创新中心的研发团队发现,哪怕是全球顶尖的通用多模态模型,面对真实物理世界也会“犯傻”。

团队曾做过一个简单实验,让模型指挥机器人搭建三层乐高积木,这个两三岁小孩都能完成的任务,顶尖模型却完全搞不定。

既无法区分积木的大小,也不知道搭建的先后顺序,甚至会把最大的积木当成最小的来摆放。

更意外的是,模型能写诗、解数学题,却看不懂“把水杯放在空桌子上”这样的基础空间指令,连物品的前后左右关系都分不清。

这背后的核心问题的是,通用大模型是基于互联网二维数据训练的,缺乏对三维物理世界的理解。

就像李飞飞教授指出的,当前大模型的空间感知能力,甚至不及一个三岁孩童。

机器人要在真实世界行动,不仅要“看见”物品,还要理解空间关系、物理规律,知道“杯子倒了水会洒”“软物需要轻拿”,这些都是通用模型欠缺的能力。

更关键的是,传统机器人训练方式效率极低,行业里流行“堆数据、堆算力”,就像一头大象每天要吃几十公斤食物,才能长一点点体重。

大模型训练也是如此,需要海量数据、数千张算力卡和巨额资金,就算这样,数据利用率也很低。

对于创业公司来说,这种“烧钱式”训练根本不现实,这也让机器人造脑陷入两难,不堆数据模型性能不行,堆数据又负担不起。

破局之道:DPPO算法让模型像高考学子一样精准提分

面对困局,北京人形机器人创新中心团队跳出了“堆数据”的思维定式,研发出一套名为DPPO的训练算法,让模型训练效率实现质的飞跃。

这套算法的核心灵感来自人类的认知心理学,就像高考学子备考一样,不搞题海战术,而是精准攻克薄弱环节。

DPPO算法的训练过程分成两步,“自主刷题”,对应强化学习阶段。

模型会先观看大量视频,学习人类的动作逻辑,然后在真实场景中自主练习任务。

抓取物品、摆放东西,练习中会不断尝试,记录成功和失败的案例,就像学生做完一套试卷,标出不会的题目。

这个阶段,模型能自主发现自己的弱点,分不清左右、不会判断物品硬度。

“名师辅导”,对应有监督微调阶段,模型会把自主练习中发现的薄弱环节集中起来,针对性训练。

反复练习区分物品大小、判断抓取力度,就像学生请老师讲解错题,直到完全掌握。

更厉害的是,这种训练方式能避免“学了新的忘了旧的”,模型学会抓取软物后,不会忘记之前掌握的抓取硬物的能力,就像人类学会开车后,不会忘记骑自行车。

这套“精准提分”的训练方法,让数据利用率大幅提升,团队只用了180万条数据,就训练出性能出众的模型,其中还包含大量视频数据。

视频能提供时序和空间信息,帮助模型理解物体运动轨迹和相对位置。

相比行业内动辄千万级、亿级的数据量,这个规模堪称“轻量化”,但性能却不落下风。

在核心能力上,PelicanVL模型实现了多项突破,空间理解方面,它能精准判断物品的位置关系,完成“在空桌子上放水杯”“把鞋子放进鞋架”等任务。

物理推理方面,它能看懂视频并判断任务是否完成,在英伟达发布的Cosmos基准测试中,只有它能准确识别“寿司已被夹出”,并给出“停止操作”的指令。

泛化能力方面,它能适配家庭、商超、实验室等多个场景,就算遇到没见过的物品,也能根据形状、材质判断抓取方式。

模型还分为7B和72B两个版本,适配不同场景,72B版本参数量大,理解能力强,适合家庭、商业等需求复杂的场景。

7B版本轻量化,适合工业等流程固定的场景,后续团队还计划开源3B小模型,让更多科研院所、学生能参与研究,降低具生智能的入门门槛。

开源初心:72B巨模开放,推动行业从“各自为战”到“合力攻坚”

2024年,团队做出了一个重要决定,将PelicanVL模型开源,包括7B和72B两个版本,这也是当前具生智能领域最大尺寸的开源模型,做出这个决定,团队有自己的深层考量。

先是推动行业技术迭代,当前具生智能领域技术路线分散,尤其是在VOA(视觉-语言-动作)方向,不同公司的接口标准、训练方法各不相同,大家各自为战,浪费了大量资源。

团队开源模型,相当于提供了一个性能出色的“公共基座”,其他开发者不用再从零开始训练,只需在这个基础上优化,就能专注于解决更细分的问题,比如提升抓取精度、适配更多场景。

其次是吸引更多人参与,具生智能是一个庞大的领域,需要软件、硬件、算法等多方面人才共同发力。

团队希望通过开源,让学生、科研人员、中小企业都能用上优质模型,降低行业准入门槛。

就像团队里的北大实习生悠悠,本科是数学专业,通过参与项目接触到具生智能,现在已经成为核心代码开发者,团队希望更多年轻人能被吸引进来,为行业注入新鲜血液。

更重要的是,开源能加速技术落地,机器人造脑的最终目标,是让机器人走进家庭、工厂、商超,帮人类解决实际问题。

但单个团队的力量有限,开源后,全球开发者都能为模型提建议、补漏洞,让模型快速迭代。

有人发现模型在某类材质物品的抓取上表现不好,就能针对性优化,有人需要适配特定场景,就能开发对应的插件,这些都能让机器人更快从实验室走向现实。

值得一提的是,这个研发团队里有多位优秀的女性工程师,她们负责算法设计、数据处理、代码开发等核心工作,用实力打破了“硬科技领域男性占主导”的偏见。

团队把她们推到台前,也是希望让更多人看到女性在科技领域的贡献,吸引更多女性加入具生智能行业。

如今,PelicanVL模型已经在多个基准测试中表现亮眼,在FreeSpace任务中,它能精准判断物品摆放位置,不会把水杯放在花盆上。

在RobotSpatial测试中,能准确识别物品位置,在长视频理解任务中,能连贯分析几分钟的视频内容,做出正确决策,这些性能的提升,都在让机器人“大脑”越来越好用。

从通用模型的“空间盲区”,到DPPO算法的“精准提分”,再到PelicanVL模型的开源共享,北京人形机器人创新中心团队用技术创新打破了机器人造脑的困局。

具生智能的时代才刚刚开始,未来机器人不仅能帮我们做家务、干农活,还能走进工厂、医院,成为生活和工作的好帮手。

而这场由开源引发的技术协作,或许会让这个未来提前到来,正如团队所说,他们期待和行业一起,让智能不再停留在屏幕上,而是真正走进真实世界,与人类共同构建融合文明。

展开阅读全文

更新时间:2025-12-01

标签:科技   北京   机器人   大脑   团队   机器   模型   物品   数据   智能   算法   精准   行业

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top