读论文学AI:混元3D世界生成开源模型



我们今天要学习的论文是来自腾讯的混元3D世界生成开源模型,该论文想要解决可探索的虚拟世界。

想象这样的场景:

传统做法:全靠人工建模,耗时、昂贵、需要专业技能

理想目标:输入一张图或一句话,AI自动生成可以自由探索的3D世界

技术的演进历史如下:

第一代:3D生成模型(2023-2024)

比喻:像是拼图游戏,需要很多碎片才能拼出完整图案

第二代:视频生成模型(2024)

问题示例

帧1: 看到一个门在左边
帧30: 门突然消失了
帧60: 门又出现在右边

→ 因为模型没有真正的"3D理解"

第三代:相机可控的视频生成(2024末-2025初)

仍存在的问题

  1. 视觉幻觉:投影的RGB图在遮挡处会出错
  2. 长距离不一致:生成长视频时前后矛盾
  3. 需要后处理:要用SfM、MVS等复杂算法重建3D

腾讯混元团队2025年初发布了HunyuanWorld 1.0,能生成可探索的3D世界,但有两个局限: 遮挡区域处理不好探索范围有限。Voyager就是为了解决这些问题而生的1.5/2.0版本



一、核心问题和创新点

要解决的问题

想象一下,你有一张房间的照片,希望能够"走进"这个房间,四处看看后面、侧面是什么样子。传统方法有几个痛点:

  1. 空间一致性差 - 生成的不同视角画面对不上,看起来像是不同的房间
  2. 视觉幻觉 - 在被遮挡的区域容易产生错误的内容
  3. 需要后处理重建3D - 生成视频后还需要复杂的步骤才能得到3D模型

Voyager的创新

这篇论文提出的Voyager框架可以:


️ 二、整体架构

Voyager的核心是一个视频扩散模型(Video Diffusion Model),整体流程是:

输入图片 + 相机轨迹 
    ↓
深度估计 + 构建初始点云
    ↓
将点云投影到目标视角(得到部分RGB-D)
    ↓
视频扩散模型补全缺失区域
    ↓
更新世界缓存(点云)
    ↓
循环:继续生成下一段视频

三、核心技术详解

1.几何注入的帧条件 (Geometry-Injected Frame Condition)

通俗理解:把已有的3D信息"投影"到新视角作为提示

技术细节:

为什么深度图更好?

具体做法:

# 伪代码示意
输入图片 I0 → 估计深度图 D0
用D0构建点云 p0
对于新视角k:
    渲染mask Mk = render(p0, camera_k)  # 哪些区域可见
    部分RGB: Î_k = I_k * Mk  # 保留可见区域
    部分深度: D̂_k = D_k * Mk

2.世界一致性视频扩散 (World-Consistent Video Diffusion)

这是模型的核心,有两个关键设计:

(1)深度融合生成 (Depth-Fused Generation)

通俗理解:不是先生成RGB再估计深度,而是同时生成RGB和深度

技术实现:

原始做法:只在通道维度concat → 空间信息交互弱
Voyager: 在空间维度concat → 像素级交互,几何更一致

(2)基于上下文的控制增强 (Context-Based Control)

通俗理解:在每个Transformer层都注入条件信息,而不只是在输入时注入一次

技术细节:


3.长距离世界探索 (Long-Range World Exploration)

视频模型一次只能生成几十帧,如何实现无限探索?Voyager用了两个技巧:

(1)世界缓存与点云剔除 (World Caching with Point Culling)

问题:不断生成视频,点云会越来越多(数百万个点),内存爆炸!

解决方案:智能剔除冗余点

python

# 算法思路
对于新生成的每一帧:
    if 该区域在缓存中不可见:
        添加所有新点
    elif 该区域可见 but 观察角度与现有点的法线夹角>90°:
        更新这些点(因为从当前视角看不到原来的点)
    else:
        跳过(已有足够信息)

效果:减少约40%的存储,同时保持质量

(2)平滑视频采样 (Smooth Video Sampling)

问题:自回归生成的视频片段之间可能有颜色不一致

解决方案:

  1. 重叠采样:相邻片段有一半重叠
  2. 初始化对齐:新片段的重叠区域用上一片段的结果初始化
  3. 平均+微调:重叠区域取平均,再做几步去噪
片段1: [帧0-48]
片段2:      [帧24-72]  ← 24-48是重叠区域
          ↓
      平均后再去噪,过渡更平滑

4.可扩展的数据引擎 (Scalable Data Engine)

挑战:训练需要大量带有相机参数和深度的视频,但现有数据集没有这些标注

解决方案:自动化数据处理流程

输入:任意视频
  ↓
VGGT估计相机参数和初始深度
  ↓
MoGE精细化深度估计
  ↓
用最小二乘法对齐两者
  ↓
Metric3D统一深度尺度(转换为米制)
  ↓
输出:带标注的训练数据

数据规模:


四、实验结果

1.视频生成质量

在RealEstate10K测试集上的对比(数字越高越好):Voyager在所有指标上都是最优!

2.3D重建质量

直接用生成的RGB-D重建3D场景,Voyager生成的深度比后处理重建更准确!

3.WorldScore基准测试

这是一个综合评估世界生成质量的基准,Voyager达到最高分! 特别是风格一致性(84.89)和主观质量(71.09)都是第一



五、应用场景

1.图片生成3D

2.视频风格迁移

3.单目深度估计

4.长距离世界探索


六、技术亮点总结

  1. 首个联合生成RGB-D的可控视频模型 别人只生成RGB,需要后处理重建深度 Voyager直接输出对齐的深度,更准确
  2. 空间维度融合 > 通道维度融合 创新的拼接方式,让RGB和深度在像素级交互
  3. 世界缓存 = 无限探索的关键 点云作为全局记忆,支持任意长度生成 智能剔除策略平衡质量和效率
  4. 可扩展的数据流水线 自动标注任意视频,无需手工3D标注 统一深度尺度,训练更稳定

七、局限性和思考

虽然论文没有专门讨论,但可以推测的潜在局限:

  1. 计算成本:单卡推理60GB显存,4卡并行4分钟/段,对硬件要求高
  2. 动态场景:论文聚焦静态场景,对移动的物体(行人、车辆)支持不明确
  3. 复杂光照:光照变化剧烈的场景(如日出日落)可能难以保持一致性

简单总结就是:

Voyager = 视频扩散模型 + 深度融合 + 世界缓存,实现了从单图到可无限探索3D世界的端到端生成

展开阅读全文

更新时间:2025-10-07

标签:科技   模型   论文   世界   深度   视频   场景   区域   维度   片段   缓存   物体

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top