人工智能正经历一场深刻的范式转换:从被动生成文本与图像的「旁观者」,迈向在物理与数字空间中主动执行复杂任务的「参与者」。纵观当前的前沿研究,无论是提取跨越形态的统一物理语言、打造交互式动态世界基准,还是构建驱动智能体闭环试错的自主演化环境,其核心诉求殊途同归——打破静态数据拟合的局限,赋予机器理解世界规律并与环境深度交互的能力。这一技术趋势的交汇点,正是当前通向通用人工智能(AGI)的核心钥匙:具身智能(Embodied AI)。
具身智能是指拥有物理实体或虚拟化身,能够实时感知周围环境,依托内在「世界模型」进行决策规划,并通过执行器对环境施加影响的智能系统。与传统大模型这种「缸中之脑」不同,具身智能要求系统深度锚定于真实或高度仿真的时空环境中。它不仅要看懂画面、听懂指令,更要内化物理规律与空间常识,在动态复杂的任务中形成「感知-决策-执行-反馈」的完整闭环。简而言之,它让人工智能真正「降临」于现实或虚拟世界,完成了从「纯粹认知」到「切实行动」的根本跨越。
本周,HyperAI 为大家推荐的 10 篇 具身智能的热门论文,研究团队涵盖了清华大学、香港大学、中国人民大学、牛津大学、小鹏机器人、字节跳动等顶尖高校与科技企业。这些论文集中展示了当前具身 AI 研究在跨具身物理表征统一、交互式世界模型基准设计、多智能体多视角协同,以及基于真实环境反馈的闭环自我进化等方面的代表性进展,为理解下一代通用智能体如何真正「认知并降临」物理与数字世界提供了清晰的切面。一起来学习吧 ⬇️
此外,为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI 官网(hyper.ai)现已上线「最新论文」板块,每周都会及时跟进前沿 AI 研究。
最新 AI 论文:https://go.hyper.ai/hzChC
1. Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
为应对人工智能向交互式目标导向发展所面临的环境建模瓶颈,一种「层级×法则」的二维分类体系被引入,用以厘清「世界模型」的跨领域定义。该体系将模型能力划分为单步预测的预测器(L1)、多步动作条件展开的模拟器(L2)与能够自主修正的演化器(L3),并结合物理、数字、社会与科学四大法则界定了环境约束与失效边界。
基于此理论框架,研究团队通过系统梳理 400 余篇跨领域文献与 100 多个代表性系统,相关方法的失效模式与评估实践得到深入剖析,进而确立了以决策为中心的评估原则与最小可复现评估包。最终构建的发展路线图有效连接了以往孤立的研究社群,并清晰规划了世界模型从被动预测走向主动模拟及重塑运行环境的演进轨迹。
论文及详细解读:https://go.hyper.ai/JRkCV

Benchmark
该论文利用多样化的基准测试来评估 agent 在不同管理法体制下的掌握程度。数据集组成分为:物理世界领域、数字世界领域、社会世界领域、科学世界领域、开放世界环境。
2. WorldMark: A Unified Benchmark Suite for Interactive Video World Models
针对交互式视频生成模型因缺乏标准化测试条件而无法公平比较的痛点,研究团队推出了首个通用基准测试WorldMark。该基准通过构建统一的动作映射层、包含 500 个多样化案例的分层测试套件以及模块化评估工具包,首次实现了多个主流模型在相同场景与轨迹下的视觉质量、控制对齐及世界一致性公平测评。
论文及详细解读:https://go.hyper.ai/HPdHr

Benchmark
为构建标准化的模型评估基准,作者提取了WorldScore的多源图像集(Image Suite),并定义了包含15种轨迹(涵盖简单平移到复杂循环)的标准动作集(Action Suite)。通过将静态图像与动态动作进行组合,最终生成了包含约500个标准化案例的测试集。

数据集
3. UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling
针对人形机器人基础模型因数据匮乏及跨具身运动学差异导致的扩展瓶颈,研究团队提出了基于视觉锚定的统一潜在动作标记器 UniT 框架。该框架采用三分支交叉重建机制,将视觉与动作模态整合至共享且与具身无关的离散潜在物理意图空间中,为人类到人形机器人的数据转换构建了统一的物理语言。
验证结果表明,该方法在策略学习(VLA-UniT)中实现了卓越的数据效率与零样本任务迁移,并在世界建模(WM-UniT)中促成了直接动作迁移与动作可控的视频生成。凭借高度对齐的跨具身表征,该框架为将海量人类知识提炼为通用机器人能力铺平了可扩展的道路。
论文及详细解读:https://go.hyper.ai/uvA4M

UniT 框架概述图

数据集
4. MultiWorld: Scalable Multi-Agent Multi-View Video World Models
针对现有视频世界模型局限于单智能体场景、难以捕捉复杂交互的痛点,研究团队提出了 MultiWorld 多智能体多视图世界建模统一框架。在研究与技术层面,该框架创新性地引入了多智能体条件模块,通过解析并行指令实现对多个智能体的精确独立控制;同时,专门构建了全局状态编码器以提取统一的环境表征,从而确保不同空间视角下观测的严格一致性。
此外,该架构支持智能体与视图数量的高效灵活扩展,并借助并行合成技术大幅提升生成效率。在多人游戏与多机器人协作任务的实验中,该研究确证了其在视频保真度、动作跟踪及多视图一致性上均全面超越现有基线。
论文及详细解读:https://go.hyper.ai/5CAZP

MultiWorld 系统流程图

数据集
5. Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
针对大型语言模型在迈向通用智能体过程中面临的缺乏真实交互环境与终身学习机制的瓶颈,研究团队提出了Agent-World 自演化训练平台。在核心技术与架构设计上,该平台创新性地引入了两大组件:其一是环境与任务发现模块,能够自主从数千个真实世界主题中探索可执行工具生态,并合成难度可控的可验证任务;其二是持续自演化训练模块,将多环境强化学习与动态任务合成深度融合,通过自动识别能力短板来驱动针对性学习,从而实现智能体策略与交互环境的协同演化。
广泛的实验表明,基于该平台训练的 8B 与 14B 模型在 23 项极具挑战性的基准测试中均全面超越了强大的专有模型与基线模型,并进一步揭示了环境多样性与自演化轮次的扩展规律,为构建可扩展的通用智能体提供了极具价值的实证与理论参考。
论文及详细解读:https://go.hyper.ai/mmGpM

智能体持续自演化训练的总体框架
数据集描述 构建可扩展的 agent 生态系统,模拟复杂的真实工具使用场景。该数据集基于 Agent-World 构建,集成了 1,978 余个多领域环境与 19,822 个工具。

数据集
6. π(0.7): a Steerable Model with Emergent Capabilities
针对机器人在多具身与未知环境中泛化受限的难题,研究团队提出新型机器人基础模型 π0.7。其核心技术在于训练阶段引入了高度多样化的上下文条件约束(context conditioning)机制。该机制突破单一文本输入局限,在提示中深度融合多模态调节信息:不仅包含界定任务语义的自然语言指令,更创新引入描述执行策略的任务表现元数据(metadata)与子目标图像。
多维条件注入使模型被精确引导,从而高效整合极其庞杂异构的跨领域数据。得益于此,π0.7 展现出卓越的开箱即用性能:不仅能在未知场景遵循多阶段复杂指令,还具备零样本跨具身泛化能力。面对操作咖啡机等高难度任务,无需额外训练便能达到媲美专属强化学习微调模型的水平。
论文及详细解读:https://go.hyper.ai/j8Ygu

pi0.7 模型介绍
数据的组成与来源: 作者聚合了来自不同机器人平台(静态、移动、单臂和双臂)在实验室、家庭和野外环境中运行的演示数据。混合数据还包括来自策略评估的自主数据、人工干预、开源机器人数据集、第一人称人类视频,以及用于视觉问答和物体预测的辅助网络数据。

数据集
7. SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments
针对三维空间推理标注成本高昂且现有自演化易强化模型误差的难题,研究团队提出以确定性几何环境(DGE)」为核心的自演化框架 SpatialEvo。技术层面上,该研究利用三维真实值的物理确定性,通过 DGE 将未标注场景转化为零噪声预言机,用客观物理反馈彻底取代了传统模型共识。
在演化机制上,框架采用共享参数策略驱动提问与求解双角色协同演化,并创新引入自适应调度器动态聚焦薄弱领域生成内生课程。实验表明,该架构在 3B 与 7B 规模下于九项基准中均获最高均分,大幅提升空间推理能力且完美保持了通用视觉稳定性。
论文及详细解读:https://go.hyper.ai/PlLpN

SpatialEvo 概述
研究团队利用了一个经过预过滤的多源视觉上下文池,专为在线强化学习(RL)设计。数据集的组成与来源如下:
该上下文池由来自 ScanNet、ScanNet++ 和 ARKitScenes 训练集的共计 4,365 个上下文组成。
数据分为三种不同的模态:场景级多帧上下文、图像对上下文和单图像上下文。

数据集
8. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
为弥合通用 VLM 与具身智能需求间的鸿沟,腾讯 Robotics X 和 HY Vision 团队推出专为现实世界设计的 HY-Embodied-0.5 系列基础模型,旨在全面增强时空感知及预测规划等高级推理能力。该系列模型包含面向边缘部署的 2B 激活参数高效版本,以及应对复杂推理的 32B 强大版本。底层架构创新采用混合 Transformer (MoT) 进行特定模态计算,并引入潜在标记强化细粒度视觉感知。
训练策略上不仅引入迭代式自演化后训练范式,更借助策略内蒸馏技术将 32B 的先进能力高效迁移至 2B 变体。实验表明,MoT-2B 在 22 项基准测试中有 16 项超越同级模型,32B 变体则展现出媲美 Gemini 3.0 Pro 的卓越性能。此外,基于该基座训练的 VLA 模型在真实机器人控制中亦取得了瞩目成果。
论文及详细解读:https://go.hyper.ai/pnJiq

HY-Embodied-0.5 混合 Transformer 架构
研究团队开发了一个多阶段训练课程,使用了多样化的视觉语言数据混合物,分为四个主要领域:视觉感知数据、具身中心数据 (Embodied-Centric Data)、空间中心数据 (Spatial-Centric Data)、通用理解数据 (General Understanding Data)。

数据集
9. LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
联合嵌入预测架构(JEPA)为在紧凑潜在空间中学习世界模型提供了有效框架,但现有方法高度依赖复杂多项损失或预训练编码器等繁琐机制。针对此痛点,研究团队提出了首个仅需两项损失即可从原始像素稳定实现端到端训练的 JEPA 模型 LeWM。在核心机制上,该架构摒弃了复杂的辅助监督,仅保留下一嵌入预测损失与强制潜在嵌入服从高斯分布的正则化项,将可调损失超参数从 6 个极致精简至 1 个。
在训练与运行效率层面,仅含 1500 万参数的 LeWM 可在单 GPU 上于数小时内完成训练,其规划速度比基于基础模型的世界模型大幅提升 48 倍,且在各类 2D 与 3D 控制任务中均展现出强劲的竞争力。此外,物理探测与意外评估进一步证实,该模型的潜在空间有效编码了关键物理结构,能够极其可靠地检测出物理上不合理的异常事件。
论文及详细解读:https://go.hyper.ai/2cl8W

LeWorldModel 训练流程

数据集
10. Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
针对空间具身智能的主动探索挑战,研究团队提出空间理论,以界定智能体从连续部分观测中构建、修正与利用空间信念的能力。为评估该理论,研究构建了基于认知地图的基准测试,并创新引入空间信念探测动态揭示模型内部表征。
评估揭示了前沿模型的 4 大瓶颈:自主搜集信息时性能骤降的「主动-被动差距」;探索缺乏系统性致效率低下;全局信念不稳定致空间知识退化;以及难以用新证据更新先验的「信念惯性」(在视觉模型中尤甚)。结果表明,当前基础模型仍难以在主动探索中维持连贯且可动态修正的空间信念。
论文及详细解读:https://go.hyper.ai/PmA4n

空间理论:主动探索、信念探测与评估
数据集构成和来源: 研究团队利用 N 乘 M 网格上的程序生成多房间室内布局,而非静态真实世界数据。视觉资产源自 Objaverse 库并使用 ThreeDWorld 模拟器渲染。

数据集
以上就是本周论文推荐的全部内容,更多 AI 前沿研究论文,详见 hyper.ai 官网「最新论文」板块。
同时也欢迎研究团队向我们投稿高质量成果及论文,有意向者可添加神经星星微信(微信号:Hyperai01)。
下周再见!
更新时间:2026-05-07
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号