
单打独斗已触及天花板,是时候团结力量推进世界模型了。
作者丨齐铖湧
编辑丨林觉民

“世界模型”是今年超级热门的话题和方向,但整体来看相关研究尚处于起步阶段,共识尚未形成。
在12月13日举行的第八届GAIR全球人工智能与机器人大会“世界模型”圆桌上,浙江大学研究员彭思达、腾讯ARC Lab高级研究员胡文博、中山大学计算机学院青年研究员,拓元智慧首席科学家王广润博士、香港中文大学(深圳)助理教授韩晓光、西湖大学助理教授修宇亮齐聚一堂。
五位年轻的学者在清华大学智能产业研究院(AIR)助理教授,智源学者(BAAI Scholar)赵昊的主持下,围绕着世界模型、数字人重建,新技术范式展望等展开了一场非常轻松但严肃的学术圆桌。
以下是具体内容,AI科技评论做了不改变原意的编辑和整理。
01
赵昊:感谢各位。世界模型无疑是未来几年最重要的技术方向之一。今天我们聊得会比较技术。先从彭老师开始,彭老师刚才介绍了Match Anything和Detector Free的Structure from Motion工作,我自己在用它们解决一些反光严重场景的重建,位姿估计问题,无论传统方法还是VGGT等都不奏效。您认为,未来纯粹的、前馈式的匹配方法会彻底取代现有方案,还是最终会走向融合?
彭思达:这取决于具体问题。在观测足够稠密的情况下,现有的COLMAP等方法已经足够精确;但在稀疏视角下,就必须依赖VGGT这类方法。目前VGGT的精度还有提升空间。我的一个观点是,我们不仅要看算法进步,也要关注硬件发展。比如20年前的IMU精度很差,现在则很准。我们完全可以将IMU、激光雷达等其他传感器信息融合进来,不必局限于纯视觉的VGGT。
赵昊:有道理。另一个方向是运动估计,最近arXiv上也有很多新工作,效果超过了SpatialTrackerV2。您觉得这个领域发展到什么程度了?明年(2026年)会被彻底解决吗?
彭思达:肯定不会被解决,这领域才刚刚开始,精度还远远不够。但最近有一个重大突破,就是谷歌DeepMind团队的新工作 D4RT。这个工作非常优雅,它摒弃了以往基于特征相关性进行迭代优化的主流范式,而是将整段视频编码为一组全局Token,然后可以直接查询时空中任意点的信息。这是一个巨大的突破,我相信接下来会有一系列改进。明年不会是终点,而会是一个蓬勃发展期,可能到2027年才会逐渐收敛。
赵昊:所以总结一下,我大胆预测,基于查询的几何基础模型会成为2026年的一个主题。不仅是D4RT,像修老师的Human3R也是查询式的。我个人赌2026年几何基础模型会走向基于查询的范式。彭老师,您2026年想bet什么方向?
彭思达:我赌自监督学习能有重大突破。现有的自监督学习大多集中在语义和二维层面,缺乏面向空间智能的自监督学习。我希望谷歌、DeepMind这些拥有庞大资源的研究机构能在这方面做出成果,让我们也能用上。
赵昊:我持类似观点。这也是为什么当年自监督深度估计研究了很久却不太成功,现在转向了模仿学习。我在想,明年是不是该把自监督深度估计重新捡起来,用于几何基础模型的后训练?
赵昊:接下来问问胡老师。2026年您bet什么方向?今年我们看到了你们的一系列4D AIGC工作和我们的Light-X这种5D AIGC工作,今天看了VerseCrafter之后,我觉得又增加了一个物体运动的维度。我们内部一直在探讨“6D AIGC”是什么,还有哪些可控维度?您的研究思路是怎样的?
胡文博:我们之前的一系列工作,属于韩老师总结的技术路线中的第三类——将3D信息注入扩散模型。但未来一年,我们可能不会继续沿着这条路线深入了。我认为它的上限可能不够高,因为重建技术无论发展多快,总存在瑕疵,难以达到完美真值的级别。因此,我们想探索一条全新的、上限更高的路线来融入3D信息,但目标依然是构建世界模型。我个人肯定会赌世界模型这个方向。
特别是今年8月Google DeepMind发布的Genie 3,对我们这些领域内的人来说非常震撼。我认为它可能达到了大语言模型中GPT-3的级别,虽然离ChatGPT还有距离,但已经非常惊人。
彭思达:我有个问题,现在的世界模型或者说视频世界模型,学到的特征对于空间感知和理解似乎没什么用。这与“建模三维空间”的初衷有些矛盾。您认为这里缺失了什么?
胡文博:首先,我想对这个前提打个问号。它对于空间智能是否有用,我并不确定。但一些证据表明,从图像或视频扩散模型出发,用少量数据就能微调出几何估计模型,这可能说明它是有用的。不过,我更想说的是,我们对世界模型的定义和要求是什么?如果我们要求它精确理解3D空间,那可能需要探索。但我更认同韩老师的定义,我想做的是一个给个人用的世界模型,让人们能体验未知的、他人的或虚构的世界。
这件事本身就很有意义。人类感知世界最主要的方式就是视觉,眼睛接收的就是视频信号。如果我们能在视频模态上实现优秀的探索、交互,并且其物理规则符合现实(或自定义),那将非常有价值。至于它对空间智能是否有帮助,我暂时存疑。
彭思达:你刚才说的让我想到一个应用,也许可以叫“魔法相册”。现在的相册只是静态记录,未来能否按一个按钮,就让照片里的内容动起来,而且每次动得都不一样?比如记录孩子的成长,这绝对是刚需。
胡文博:这更像是让图像动起来。但对我来说,世界模型更吸引人的场景是:打开任意一张照片,你都能“进入”那个场景进行探索,与其中的物体交互,并且你的交互和更改能被永久保存,下次可以继续。这更像是一个活的世界。
赵昊:看来我们形成了两个初步共识:一是基于查询的基础模型是趋势;二是当前3D范式存在上限,需要自监督等新范式来突破。
赵昊:接下来请王老师分享一下,您对2026年有什么样的展望或bet?
王广润:我先接续刚才的话题。世界模型有什么用?在我看来,一个核心应用在具身智能和VLA领域。简单来说,输入图像,输出未来的动作序列,这些动作本质包含了3D坐标向量。所以,VLA任务在我看来,也包含着预测未来的3D点云(可能是只有一个点的点云)。我认为世界模型可能是一个可泛化的、快速进行3D重建与预测的引擎。对于明年,我的期待是能看到 Physical Intelligence的“π 1”版本 发布,并希望其中包含更多对世界模型的建模。这是我对明年的一大期待。
赵昊:一个灵魂拷问:为什么π0还没有接入深度图或点云预测?这很让人期待。
王广润:VLA领域目前主要缺的是数据。有种观点认为未来只需堆数据即可。但要训练您说的那种模型,需要大量特定的3D标注数据,采集非常困难。
02
赵昊:谢谢王老师。最后请韩老师。第二次听您的演讲,我在想我们是否可以把“3D对于可解释性和安全性至关重要”这个观点理论化,联合国内外学界写一篇立场论文?
韩晓光:说实话,我虽然激情澎湃地讲3D, partly是因为我没有足够资源去做视频模型。我看到很多做3D的人转向了视频模型,包括文博也说3D看不到性能尽头了。我讲3D的重要性,也是想“煽动”大家继续深耕3D领域,这样我才有安全感。
关于2026年要做什么,我认为可交互性是世界模型的关键。我个人更偏向于做仿真环境中的可交互,比如生成一把剪刀,机器人拿起来真的能用;生成一个物体,可以被拆卸或操作。这是我主要想做的方向。
修宇亮:我一直在思考数字人领域中一个长期以来被忽略,但又很有趣的点。无论是做具身智能还是3D,大家最终都落脚到机器人能干活。但人与人交往,除了“有用”,“快乐”也是很重更要的一个维度,而一个人给另一个人带来的快乐,往往不是对方给自己干了多少活,而是对方给我提供了多少情绪价值。
如果2026年有什么新方向,我特别想探索如何让数字人提供情绪价值的问题。这很综合,涉及音容笑貌、举手投足。拿做饭举例,做饭的快乐不仅在于炒菜本身,更在于一家人坐在一起享用时的愉悦的反馈。物理层面的问题,操作、抓取、移动,在不久的将来,会随着智能水平的提升、硬件的迭代、运营上ROI 的打平,一个接一个落地,那么之后呢?温饱之后,人很自然就有更高的精神上的追求。落实到数字人,我们需要将语音、语调、表情、动作等多模态统一协调,形成一种能打动人心的整体感觉。就像赵昊老师做的灵巧脸的demo,技术上是领先的,但目前仍有恐怖谷效应,无法有效传递情绪价值。所以我认为可以先在数字世界中探索如何让数字人的多种感官传递都“活灵活现”起来,形成协调一致的感觉,最终目标是让人产生情感共鸣。
大模型也是如此。比如最近很火的那个 prompt:
我是一名智力低下的研究生,毫无基础,我将在明天组会上做ppt文献汇报,请你解读一下这篇文献,让我能达到彻底看到这篇文献的效果,注意我是智障!!!一定要帮我讲明白,最好是翻译出来,因为我对英语一窍不通,我只会中文,你要先给我规划一下怎么向你提问最合适,一步步引导我看懂这篇文献,并完成最终的ppt汇报稿
如果问这个话的是一个真人,那么理想的交互应该是什么样子呢,他应该先说,“你已经考上研究生了,你的智力已经是极优异的那一撮了,我想你只是需要一种更落地的对论文的解释,这篇论文是关于……”,先给予情绪支持,再解决问题。这是人机交互中很重要的一点,这是我从我老婆身上学到的,一种比我之前三下五除二的沟通方式,更宜人的一种沟通方式。
赵昊:如果我们研究情绪价值,学术界面临的最大问题是如何量化评估。没有基准测试。我们明年是否可以先着手定义一些基准?就像MMMU对于多模态理解那样。
修宇亮:这确实是个难题。情绪非常个人化。但并非无法量化,例如脱口秀可以用“罐头笑声”标记笑点。我们可以定义何时引发了何种情绪,尽管要建立一个普适、有说服力的基准非常困难。这可能需要新的技术手段。
赵昊:另一个问题:为什么3D数字人的发展似乎比通用3D物体慢?是数据问题吗?难道不能用Trellis那样的技术范式大幅提升精度吗?
修宇亮:数据不足是一个问题。但更根本的是,数字人有一个“恐怖谷”效应:通用3D物体做到90%逼真度可能就很好了,甚至如果依赖于深度相机或者雷达感知,通用物体的操作,都未必需要纹理信息,但数字人这个领域,从诞生第一天,“保真度”就是毋庸置疑的事情,而且容错率极低,做不到99分或100分,就是0分。人脸或者动作只要有一点点假,有一点点僵硬,就会令人不适。这也是为什么许多公司转向卡通风格——预期管理更容易。卡通拟人化,比数字人拟真化,技术要求低很多,从用户的角度,也会更容易接受。拟真数字人需要极高的技术门槛和资金投入,短期内难突破。
韩晓光:我补充一点,除了真实感,动态驱动也是巨大挑战。一个静态的3D数字人用处有限(除了3D打印),必须让它动起来。而让物体或人动起来,并且动得自然,目前都很难。
03
彭思达:我有个问题给宇亮。您认为情绪价值的本质是研究语言,还是外观?如果要排序,哪个优先级更高?
修宇亮:这不是非此即彼的问题。但如果排序,我认为语言(包括语调)本身可能更重要,其次是表情和体态。即使遮住脸或绑住手,我们也能通过语言传达大量情绪,你如果有听过气泡音的深夜电台主播,你就知道我在说什么。
彭思达:接着一个更技术的问题:当前视频生成模型是否也面临范式天花板?例如图像生成,StableDiffusion曾如火如荼,但如今被Nano Banana等基于语言-图像统一建模的新范式超越。现在似乎还没有论文很好地将视频与文本/语言在高层语义上进行统一建模。要让你设想的数字人有“灵魂”,必然需要这种深度融合。您怎么看?
修宇亮:现在确实有一些视频模型能根据音频生成口型,但还不是真正的“形神兼备”。这种灵魂感往往体现在高频细节上,比如微表情、语调的微妙变化,这些细节在像素层面可能都难以捕捉,在损失函数中也作用忽微,你看《建国大业》里面,老蒋听到李宗仁当选总统的时候的那个微表情变化,这样像素级的情感传递,能用 AI 准确生成吗?建模这种极致的逼真度本身就是最后一公里的巨大挑战。
韩晓光:关于情绪价值,我甚至觉得,有时不提供具体形象可能更好。越具体、越真实,有时越会限制想象力。一个未知形象但声音温柔的角色,可能给人更多想象空间和情绪价值。
修宇亮:情绪价值常常来自“反差感”和“预期违背”,而这与当前大模型“准确预测下一个词”的训练目标是相反的,语言模型是要准确预测下一个词是什么,但脱口秀的工作逻辑不是这样,要更高一级,他得在知道下一个词最可能是什么的前提下,给出一个最不可能但又合理的输出,这就是脱口秀的预期违背。如何让以“捕捉人类直觉”闻名的大模型,去学习生成这种“反直觉但细想想又很合理”的内容,是我感兴趣的,我甚至认为幽默本身,就是人类智能的一种体现,人类就是在预期违背中,去忤逆去突破,打破成见形成集体对事物全新的认知,脱口秀演员和科学家,本质上是一类人。
赵昊:这或许是个好方向,比如让数字人讲脱口秀。另外,回到统一生成与理解的问题,像Nano Banana那样的工作,将其扩展到视频需要多少计算资源?
彭思达:这需要一些基础算法,比如视频的Tokenization目前可能都没做得很好。视频理解和生成的需求也不同,一个可能需要处理一小时长视频,另一个可能只生成5-10秒。如果Tokenization问题没解决好,以目前的规模,上万张GPU卡可能是起步。
赵昊:视频的Tokenizer正是我2026年想赌的方向之一。最后,我正式向在座的各位,以及产业界、学术界的朋友发出倡议:我们是否可以共同建立一个世界模型的技术联盟或发布一份倡议书? 当前单打独斗似乎已触及天花板,是时候团结力量,共同推进真正的世界模型了。
今天的讨论就到这里,感谢各位!


//

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载! 公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
更新时间:2025-12-22
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号