北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈


互联网视频数据是唯一可以 scale up 的道路


作者丨郭海惟

编辑丨陈彩娴

作为一名具身大脑的创业者,卢宗青有着金光闪闪的履历:

他是紧随DeepMind之后,中国新生代的强化学习研究者。北京大学计算机学院长聘副教授,担任过智源研究院多模态交互研究中心负责人,负责过首个国家自然科学基金委原创探索计划通用智能体项目,还同时在NeurIPS、ICLR、ICML等机器学习的国际顶级会议担任领域主席。

早在2023年,他旗下团队便有利用多模态模型研究通用 Agent 的研究尝试,让 Agent 玩《荒野大镖客2》和办公,使其成为第一个从零开始在AAA级游戏中完成具体任务的 LLM 智能体。相关论文几经波折,今年终于被 ICML 2025 录用。不过他自述对那份研究其实不够满意,因为“泛化性不足”。

当完成那些研究以后,卢宗青意识到“当前的多模态模型缺乏与世界交互的能力”。因为模型缺少学习物理交互的数据,所以我们看到的那些泛化的能力本质都是“抽象”的,它终究无法理解动作和世界的关系,自然也无法预测世界

这如今成为他想在具身智能创业的起点:开发一个通用的具身人工智能模型。

卢宗青微信头像的气质是有些桀骜不驯的:一个戴着墨镜的青年男人,留着冷峻的络腮胡子,白色T恤上是一个墨色的苹果。你下意识会以为,这是个随时会 solo 一段摇滚或者骂几句脏话的文艺青年。不过当你见到他,坐下来聊天的时候,你会发现他就是一个学者和老师的样子,说话温文尔雅,笑起来也很温和,即便遇到些蠢问题也能忍住耐心讲下去。然后直到你跟他聊技术的愿景,他又会变得桀骜有态度。

或许是因为,他想要的东西实在是太大了。

在与 AI 科技评论的对谈中,他反复传达的事情是:他与其他人的立场出发点是不同的其他人要的是落地、是应用、大约是在现阶段智能上限的基础上修修补补。而他们的“taste”是去“追求更统一、更本质的solution(解法)”。后者,大约可以理解为一个全新的、适用于通用具身智能的通用能力基座。

所以他会不断说“VLA没错”、“遥操作和真机数据有价值”,然后转而接一个“但是”。你会觉得他确实是不欣赏那些东西的,或许他的关注点已经不在那里了。他说“某些具身创业公司说的世界模型是在搞笑”究其本质仅仅是在建图,最多只能像自动驾驶做导航。那个瞬间他会表现出明显的不悦,好像有人正在冒犯他。或许是因为有些成熟的技术市场人确实刻意混淆了一些概念,让当下和未来的范式变得模糊。

他所表达的对技术的审美,和杨立昆是有点相似的:他们坚持认为现阶段的语言模型无法抵达一种通用泛化的人工智能,而只有更多元的视觉信息,才能通向 AGI。要实现这一点,他们只能选择一条路,即广泛大量的互联网视频。

这其实就是卢宗青创立的公司「智在无界」BeingBeyond 正在的事情,他们通过标注1500万条互联网视频中人类关节的动作,让模型去学习人类的运动模式。(https://beingbeyond.github.io/Being-M0/)

他们不会跟你讲,互联网视频有多么难搞。他们只会说,互联网视频数据是唯一可以scale up的道路。我们除了这条路,再没有别的路可以选择,再苦再难华山也只有这么一条路,但不能因此就不上了。

大概出于类似的原因,Being Beyond 是现在为数不多的,将其第一代模型以 0 为开头命名的团队(相比之下,一些公司直接将第一代产品序列命名为 3.5)。他甚至拒绝将第二代模型命名为 1,也拒绝透露他们接下来命名的数字规则。

所以在专访的三天后,AI 科技评论在北京的一个知名大会上再次看到他时,你会不由自主觉得他其实很孤独。因为所有人都在聊VLA,聊世界模型,聊各种各样的遥操和真机数据的采集、改进与合成、聊场景、聊操控。他口中那些“有价值”但“不本质”的玩意儿,在那个会场里几乎淹没了他。

这不由让人想起,他聊强化学习历史时说,中国强化学习起步相对晚一步,原因之一是 AlexNet 出来以后,大家都在搞CV。他聊融资时说,很多投资人都说要投非共识,但投出来的全都是共识。”或许这句话不仅仅只是投资,在很多方面都是适用的。所以那场面很难不让人想起,过去那些年的 AI 四小龙,它们也是在媒体锣鼓喧天的氛围中代表了一种人类进步主义的未来。直到DeepMind 和 OpenAI 再次改写了历史,CV 路线的 AI 就仿佛一夜之间淡出了人们的视线。

我们不知道 BeingBeyond 能否真的能代表未来,更不知道这家年仅5个月的公司,是否真的能成为一家穿越周期的代表时代的技术领导者。我们甚至不知道,他提出的技术路线是否如他所言,真的能抵达他口中的星辰大海。

不过其中的一些问题,他可能也不全然知道答案。他很明白接下来的路有多难:当他被问到,这条路多久能跑通、能scale up?他明显停顿了一下,咬咬牙说两三年吧。可两三年也很长,变化会很多。他说路上还有别的事情可以做。他聊起 OpenAI 的时候眼睛会发亮,说他们早期真的搞了很多费钱但没有经济效益的事情。然后他又会拉回来,回到一个同样反复出现的主题上:

如何在受限的情况下,把事情办成了。

这是具身智能大脑的题中义:相比于大语言模型坐享人类文明几千年的文字富矿,具身领域好用的视频数据实在是穷得可怜。这当然也是一个创业公司的题中义,绝非人人都能有 OpenAI 的金汤匙。BeingBeyond 刚宣布了联想之星、星连资本“数千万人民币”的天使轮融资,钱不算少,但也绝不算充裕。

不过或许正如卢宗青所说,如果你站在一个终局解决方案的立场上来看,很多事情大概也就并不真的是个问题了。

卢宗青和他的BeingBeyond

这是他创立 BeingBeyond 后接受的第一个专访。我们简单地回顾了他的学术历史,并探讨了具身智能泛化路线和公司的愿景。以下是本次专访的内容,AI 科技评论作了不改原意的整理与编辑:


01

研究强化学习是因为 DeepMind

AI科技评论:今天接受采访的身份是创业者,还是教授?

卢宗青:(笑)还是聊聊技术吧。

AI科技评论:我们看到你在研究具身之前,其实有非常的学术方向变化。

卢宗青:对,我本科是材料,研究生转去电子学院,一直做计算机系统的相关工作,切入点更多是做算法的优化问题,比如NP问题。在南洋理工读完博士后,去宾州州立大学做了两年多博士后,也是类似的事情。

选择做强化学习,是2017年回国后,加入北大后选择的方向。一方面看到DeepMind跑Atari Game(雅达利游戏,知名复古游戏厂商)后发了一些成果,另一方面也看到强化学习确实在解决问题,例如来解决NP问题的案例。

AI科技评论:有什么印象特别深的例子吗?

卢宗青:就还是David Silver(DeepMind首席科学家)吧,他们 2016 年在《Nature》上发的强化学习的论文(即《Mastering the game of Go with deep neural networks and tree search》,AlphaGo当年凭借该论文中的呈现成果击败李世石)。

因为在此之前,学术界还大多关注计算机感知层面的研究,而David Silver的团队在做决策层面的突破。而决策层的发展才能构造更通用的智能

AI科技评论:整个研究的愿景一下就大了。

卢宗青:对。其实我们现在研究的计算机系统领域的问题,大部分都已经是决策问题了。比如最简单的控制Transmission Power(信号传输功率),不管是WiFi还是无线基站的控制,根本上就是一个决策问题,而非感知问题。

AI科技评论:那是如何从强化学习领域转投具身智能领域的探索呢?

卢宗青:转变主要是在智源研究院的时候。2022年我在智源设立了“多模态交互研究中心”,当时ChatGPT刚出来,我们想去探索强化学习和大模型的结合。当然,不是现在的RLHF或者RL和推理的结合。我们更多是想说,把语言模型作为一个规划者(Planner)的角色,如何跟下游的RL策略融合起来。

我们会基于开源模型,去训练一些多模态的模型,也会根据一些闭源模型做探索。比如2023年我们有一个研究,用GPT-4V去操控电脑,让它去读屏幕然后操作鼠标和键盘。

AI科技评论:现在有很多 Agent 创业团队在做类似交互的事情,但你们2023年就在做了。

卢宗青:对,我们其实很早已经做过了。

除了这个,我们还跑了很多游戏的测试,像《RDR2》(荒野大镖客2),相当于一个比较早的agent,叫Cradle,那篇论文今年刚中了ICML。

其实《RDR2》这样的3A游戏,已经蛮像一个真实的物理世界的。但我们发现单纯用互联网信息训练出来的模型,决策能力非常差。它语义上做planning是可以的,但要和环境交互、预测事件的后果(比较难的)。

我们当时为此做了很多工作,各种prompt engineering、In-context Learning、memory 机制。做完这些后我们认为,当前的多模态模型没有和世界交互的能力。

(Cradle的论文正式发布于2024年3月,当时它能够在游戏《荒野大镖客2》中完成长达40分钟的主线任务并探索开放世界,可以独立完成办公、修图、网页浏览等任务。https://baai-agents.github.io/Cradle/


02

人类视频是机器人通用智能的捷径

AI科技评论:但如果我们的模型在游戏里都很难实现交互,那么在物理世界里的难度应该就更大了。

卢宗青:如果只针对一个游戏去做训练,其实已经可以做到不错的效果了。说它有不足,是因为很难复用到其他的游戏中去,泛化能力很弱。

因为模型其实没有学习物理交互的数据。我们跟物理世界交互,往往动作决定了世界的下一个状态是什么样子的。所以我们认为,如果在物理世界中去训练,有真实的数据,那(训出来的模型)就是可以有通用性的。

所以我们在 2024 年开始去探索具身以后,其实也尝试了很多技术手段去采集数据。比如遥操、Sim2Real,还有最近比较流行的 Real2Sim2Real。

这些方法的泛化性都比较差,别说各式各样的场景了,就是对简单的物理层面的泛化、对 position 的泛化理解都很难。

2024年我们确定在智源研究院里去做这件事情后,内部讨论了很久,在各种限制条件下不同学习手段甚至范式,它们所能去触摸到的 Upper-Bound(上限)到底是什么。

最终选择的路线就是2024年初定下来的:利用人的运动信息去训练和驱动模型。那里面用的数据,主要就是互联网的视频。或者说,我们想用海量的互联网中人的运动视频,来 scale up人形机器人的学习。当然,这里主要是指预训练部分。

AI科技评论:现在用互联网视频去研究机器人学习的团队也挺多的。

卢宗青:首先,你现在看到的很多所谓「互联网视频学习」,他们做的事情,比如训练 reward function(奖励函数),如刚才所说,我们2023年已经做过类似的探索了,但我们认为不直接。

所以,他们分析视频,更多也focus(聚焦)在物体的运动轨迹上。比如说,一个视频演示的是人拿杯子。其他人更多关注的是杯子的轨迹。而我们考虑的是,人的手怎么动。二十多个自由度,每一个自由度,每一个关节的位置是什么?

这样的好处是,它有更直接的方法和更明确的学习目标。

我们可以把人手的位置,都从这到那儿都标出来。其实互联网的人手的视频,本身就记录了非常复杂的操作比如翻手机,这不是我们现在灵巧手能很好完成的事情,那么一个视频里它就会记录很多的信息。我们会直接把手这个姿态给标出来,通过一些手部姿态3D模型来标注,从而直接学习,也能知道对应文本下如何去操作。

https://beingbeyond.github.io/MEgoHand/

最后,他们也没有我们数据量大。他们可能对外宣传说用了互联网数据,其实也只试了几百条。而我们的目标是要scale up,像我们的姿态生成模型,现在已经拿到了1500万条数据。

AI科技评论:为什么其他人没有走你们的技术路线?你们的优势和难点在哪里?

卢宗青:我只能猜测一下。他们可能很多人在用gripper(夹爪)。如果做夹爪,其实不太需要考虑人的形态如何。我们因为之前一直做大模型相关的事情,所以我们的研究 taste 就会想如何去更统一、更本质地解决这个事情。

包括遥操采数据或者真机数据,因为数据量小,其实也只是面向应用场景的解决方案、针对特定任务的优化,这也不是我们终极想要做的事情。

我们相信,对于人形机器人和灵巧手来说,(假如要实现通用泛化的智能能力),用大量人的运动视频数据做预训练,会是一个更好的方式。因为如果只是在 Simulator(仿真器)里去学操作或者全身运动的策略的话,它(学习的数据)是没有任何先验的。

你用强化学习来学,最后只是为了满足奖励函数而已。比如,我们在实际生活中抓一个杯子可能是这么抓(正手正常拿杯子),但你在 Simulator 里训练的结果可能是这么抓(反手拧手臂握杯子)。

但是我们如果通过人的数据做预训练的话,其实是 Encode(编码)人的先验的(成功)经验。而先验的东西对于一个比较难的问题,本身是有非常大的好处的。

AI科技评论:但有没有可能机器人就是和人很不一样。它可能到最后发现,最合适它自己的抓取方式就是这样抓杯子的(反手拧手臂握杯子)。

卢宗青:(笑)强化学习的目标就是将奖励最大化,一切取决于你的奖励是怎么定的。那有可能奖励定义出来的就是这个样子。

但强化学习从理论上来说,要让每一个动作都遍历所有的 State-action space,然后才能学习到一个最大化的 Return 的策略。但是如果我们有一个先验的行为,那么就不需要把整个 State-action space 去遍历(Traversal)一遍。

AI科技评论:所以人的动作虽然不一定是最完美的,但现阶段是性价比最高、最容易scale up的方式,因为我们可以拿到数据最多的。

卢宗青:其实语言模型也不是让模型学习如何用语言,而是在大量人已经产生的数据集上面去学习。那么对于人形机器人,我们已经有了人的行为和运动方式,为什么不去用呢?

而且人形有一个好处,即可以通过向下兼容。比如我们人可以控制一个二指的夹爪去完成事情。那如果我们学会了人手的操作,模型可以(通过强化学习等后训练)去实现向下兼容。

包括双足的机器人,我们做得好的话,也可以去向下兼容轮形移动的机器人,后者控制比较简单。

AI科技评论:但是其他采用类似遥操采集、数据工厂的团队,他们对外也是说,手上这些东西未来要服务通用人工智能。

卢宗青:我觉得他们目标更单纯,就是商业上的目标,通过更好的软件来卖出更多的本体。

我觉得一涉及到本体的话,容易把自己的技术路线带偏,总是想着通过技术路线去更好地跟自己的本体去适配,来卖自己的本体。如果你要 overfit(过拟合)本体,遥操、真机肯定是有价值的。

但我觉得不是一个有效的途径。因为现在的机器人的本体基本上都没有收敛,数据很难复用。而且数据采集成本很高,也很难达到互联网视频的规模和多样性。

而且现在真机采集数据更多是夹爪领域,大规模去遥操人形机器人是非常少的,只有一些科研方面的工作在做。如果你是说轮式+gripper的话,那也不是我们focus的机器人形态。

AI科技评论:现在我们手上有了1500万数据,你觉得数据量够吗?

卢宗青:1500万主要是指全身运动控制,比如走路跑步这些。现在正在积累手部操作数据,是第一人称视频。我们目前在逐步建立这方面的数据集,之前大概已经有300万,最近苹果又开源了一个数据集,包括最近随着智能眼镜的普及,我相信这方面数据会越来越多。

至于数据量需求的问题,我们可能要先验证整个的pipeline后才能知道。

比如你如果几年前问OpenAI需要多少语料,那么最终的答案是:他们用到了互联网上所有的语料。我想具身也是同样的。

AI科技评论:和海量文本数据量比,互联网上能用的视频内容,是不是还有差

卢宗青:那看怎么比。如果从文件大小或者token来比的话,肯定(视频)还是会大很多。

当然,其实视频和文字不一样,文字是信息密度很高的信息形态,视频相对没那么高。

AI科技评论:所以我们还没有进入大模型公司那种大力出奇迹的阶段。

卢宗青:对,(笑)需要一万张卡。现在还不到时候,去年在智源探索时用了大概六七百张卡。

主要是姿态生成模型已经基本定型了,而且我们现在正在验证pipeline,做一些后训练一些操作,所以肯定不需要这么多卡。

AI科技评论:但你刚才提到,我们的目标还是要去做基座能力和智能泛化。

卢宗青:验证完pipeline之后肯定是需要更多的计算资源的。

最近Mary Meeker 有个报告,里面有提到,现在的训练代价是远远小于之前的语言模型的代价,她说的可能也就是之前的百分之几。

目前具身模型本质也是一个语言模型,我们现在是基于语言模型的backbone去训练,这样它可以更容易用语言去理解指令,只是我们加入了更多的模态信息。

当然,这方面其实也需要更多的探索。我们是否真的需要一个语言模型来backbone,或者我们learning from scratch去训练一个专门针对具身的模型,我觉得这是后面需要回答的问题。

或许未来我们可以探索出视频信息进行预训练为主的模型,但可能要以后才知道。但现在基于语言模型去训练,其实是最省钱的。


03

现阶段世界模型还很远

AI科技评论:一些原来自动驾驶的人转去具身大脑创业,都在说世界模型这个概念。

卢宗青:世界模型不可能用。对机器人来说,世界模型用不了。

我跟你说什么样的世界模型能用:要定义在action,手部的关节,也就是操作层面。如果仅仅是语义层面的话,没有太多帮助。

除了像自动驾驶做导航外,没有什么帮助。

AI科技评论:所以你是觉得它现阶段落不到操作层面?所以没有意义?

卢宗青:对机器人没有意义,对游戏可能有意义。

我觉得很多机器人的公司,说把世界模型给具身用,不可能的。做机器人的公司要去做世界模型,简直就是在搞笑。

而且车厂说的世界模型就是把整个环境构图建出来,如何去导航。那你可以理解它的世界模型(本质)就是在建图。

而我们说的世界模型就是:我推一下,杯子倒了,要怎样推,杯子才会怎样倒?这涉及到动作,没有任何(先验的)数据可以给你的。

AI科技评论:所以你怎么定义世界模型这个概念?

卢宗青:(具身的)世界模型就是根据你当前做的action,然后(预测)下一帧发生了什么样的变化。杯子如果这样放在这里(桌角),它就会掉到地上,一切要符合物理规律。

它要满足两个性质,一个是我们很多pysical engine,比如Mujoco,要符合物理规律,在视觉层面也能跟我们现实中的物理世界是一致的。(现在)不可能做到这个程度的。

机器人的世界模型应该要和人类相似,因为我们是要在物理世界交互的。

AI科技评论:所以我们终究可以到那个地方,只是现阶段因为数据的原因,所以不能成立?

卢宗青:现在大家想象的世界模型,和他们要做的世界模型,其实是两个东西。

之前MIT的研究说语言模型已经具备了world model的能力,但那个是abstract level层面的:

我做了什么事情,后面发生了什么?你是通过思考或者语言可以描述的,但是你不是去预测下一帧、下一个画面是什么。而他们现在要做的世界模型是要预测下一个画面是什么,不仅要做到这件事情,还要给机器人这样的环境去训练。我认为现阶段的技术手段不足以做到这件事情。

AI科技评论:那你怎么看现在“不同版本不同名字”的VLA层出不穷?

卢宗青:如前面所说,我觉得VLA本身没有错。只是大家更多是在gripper做操作,没有touch到最本质的问题。

AI科技评论:能再定义一下什么是最本质的问题吗?

卢宗青:怎么来学,learning paradigm(学习范式)是什么。

我们到底是带大量action数据去做预训练,还是说我只是在VLM上加入action head。这是两个不一样的范式。

我个人是希望大规模把互联网上的动作数据,放到前面去学习,然后再去对齐。他们是说,我现在有个VLM,训练完了以后,把真机数据堆在后面去训练。而且真机数据和互联网数据也差了几个量级的。

AI科技评论:所以你觉得未来范式的方向是前者。

卢宗青:是的,未来的范式会收敛到我们这一条路上:通过互联网的视频去学习人的行为。

当然我说的只是人形机器人和灵巧手,gripper的形态不在我们的考虑范围内。


04

短期没有商业化考量,融资是双向选择

AI科技评论:我们想要解决更本质可能就意味着实现难度更大、商业化能力没那么快。那你是怎么考虑这个问题?

卢宗青:我们尽可能把思路传达给投资人,让他们去buy in这样一个技术路线,作为一个通用的解决方案,还是有一些投资人逐渐在认可这样的技术路线。

当然我们一开始就没有动用特别多的计算资源,也是在一个相对受限的情况下去办这件事情。

AI科技评论:有商业化的尝试吗或者规划吗?

卢宗青:规划不太能说,但现在没有商业化的尝试。

AI科技评论:你现在有合伙人吗?

卢宗青:没有联创这个级别的,正在培养团队成员,同时也在接触中。

AI科技评论:你在跟投资人聊的时候,对于我们商业化落地方面的想法,投资人是完全没有问题的吗?

卢宗青:有些投资人肯定会问的,但这其实是个双向选择吧。有一些投资人听了这个技术路线以后,他们会非常excited。

我觉得未来我们需要商业化的时候肯定会去尝试,但现在通用的solution,近期之内是不大可能性的。(停顿)至少一年之内不可能。但沿途我们去做一些商业化落地也是可以的,我自己是不排斥的。

AI科技评论:这有点像OpenAI,早期是一个非营利性的组织,有很多富人去支持,做了很多未来的尝试。

卢宗青:对,我觉得现在环境会比之前好很多。包括Pi其实他们早期也就是研究,没有任何产品。

AI科技评论:但坦率讲,中国和美国的投资环境还是不太一样的。国内投资人可能嘴上很乐观的,但心底对国内的前沿探索是没有那么自信的,还是偏好一些工程性的落地应用的项目。

卢宗青:是的。确实就像你刚才说的,技术的发展是有非常大的不确定性,但是一些投资人就喜欢看到确定性的东西,其实本质是相悖的,所以好多投资人说投什么非共识,最后投出来的项目全是共识。

但可能这几年会变好一些。像DeepSeek和机器人硬件的成功是一种鼓励,尤其是机器人的硬件体系主要是在国内的。

AI科技评论:其实具身大模型和语言大模型还不太一样。语言大模型在Day One的时候,投资人就有共识,认为这是美国一套、中国一套的生意模型,所以才有了后面快速起来的六小虎。但具身应该没有语言模型的政策壁垒,所以你们似乎从第一天开始就是全球竞争的格局。

卢宗青:我觉得很好啊,这也是全球性的机会。本来也不该有壁垒,本来就是该全部一起竞争的。


05

BeingBeyond 将分别是两个模型的名字

AI科技评论:公司为什么叫 BeingBeyond?模型也是叫Being-M0

卢宗青:Being其实就是生成和存在,Human Being里的 Being。而且它既是名词又是正在进行时,所以我们后面加了一个Beyond。我们希望最后能做出Robot Being吧。

AI科技评论:所以这个名字里本来就暗含了实现AGI的愿景,因为要“超越存在”。

卢宗青:是的。我们是这样安排的,我们的第一代模型基本会用 Being来开头,后面的模型会考虑用Beyond开头,但就不知道会是什么时候了。

AI科技评论:Beyond模型会侧重什么呢?

卢宗青:如果发Beyond,那就代表我们真的是全球领先的模型了。

AI科技评论:其实我第一眼看到这个名字,我在想会不会是因为你们不做“本体”机器人硬件,所以要超越本体。

卢宗青:是的,是一语双关。而且如果在模型命名上,Being-0其实也代表正在进行中的0号产品。

AI科技评论:这个命名也非常有意思,为什么是从0开始发布产品?

卢宗青:因为0号是我们最初一个还不够成熟的尝试,它不代表我们最终要做的事情,而这条路会是一个不断迭代的过程。

而且后面的话,应该也不会命名1。要命名为1的话,我感觉应该是一个(停顿)跨越式的模型吧。

但是 Motion 模型的话,可能会出1,因为它是我们刚才提到的1500万条数据上已经scale up的第一个东西。

AI科技评论:如果不用1的话,会怎么命名呢,0.1、0.5?

卢宗青:(笑)scale up了以后就会有1的。

AI科技评论:公司现在多少人?

卢宗青:全职员工其实就五个人,加上实习生大概二十来人。

AI科技评论:其实这个规模在创业公司里都算很精简的了吧。

卢宗青:是的,但他们每个人都做了很多年模型相关的研究了。

AI科技评论:那如果给你一大笔钱呢?你会去配置一点资源去尝试硬件吗?或者你会去多买点卡之类的。

卢宗青:现在不是做硬件的最佳的时刻,因为硬件形态还没有收敛,而未来具身的很多地方肯定都会标准化的。

买卡也暂时不太会。(即便有钱了)可能我们还是这么几个人,在这样一个办公室里。因为事儿还没有到要scale up的时候,我们暂时还不需要那么多资源。

AI科技评论:多久以后可以scale up?

卢宗青:我觉得两三年吧。

AI科技评论:那确实需要很好的耐心,因为两三年可能会发生很多事情。

卢宗青:两三年是指scale up的时间这个过程不是说一直不做商业化,还是有一些公司对我们的技术路线有兴趣的。

AI科技评论:你有特别喜欢的创业者或者公司吗?

卢宗青:Steve Jobs。我认为我们如果有机会的话,未来也可能有一天会做一个自己的机器人。因为所有的具身模型都是在机器人上的,我们也很希望可以去直接面对客户,只是不是今天而已。而且因为我们的目标是通用的,所以我们最终其实还是希望有2C的机器人。

AI科技评论:最后一个问题。因为我们最大的数据集是人类的,所以如果实现通用泛化,机器人就自然会以人类动作为主要参考形态。换言之,人类自己的运动模式,最终决定了这个文明未来机器人的形态。对吗?

卢宗青:对。

//



未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

展开阅读全文

更新时间:2025-06-20

标签:科技   先锋   现阶段   北大   本质   模型   世界   卢宗青   数据   机器人   视频   事情   语言   智能   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top