腾讯发布的开源AI模型,可以生成具有3D一致性的视频序列



在影视后期工作室里,设计师小张正对着电脑发愁。为了制作一个 30 秒的虚拟场景漫游镜头,他的团队已经用传统 3D 建模软件熬了三个通宵,光是调整不同视角下的物体比例就耗费了大量精力。而现在,一款名为 HunyuanWorld - Voyager 的 AI 模型可能彻底改变这种现状 —— 只需一张概念图和简单的路径设置,就能生成连贯的 3D 漫游视频,物体位置、视角变化自动保持精准一致。这不是科幻电影里的情节,而是腾讯刚刚开源的黑科技,它正悄然掀起空间智能领域的革命。

一、技术突破:AI 终于能 "记住" 空间结构了

传统 AI 视频生成就像在平面上作画,每次视角切换都相当于重新创作,物体位置经常 "漂移"。就像你在纸上画同一个房间的不同角度,很容易把桌子画到墙外面去。而 Voyager 的核心突破在于给 AI 装上了 "空间记忆",它能记住每个物体的位置关系,让虚拟摄像机的移动符合真实物理规律。



这个神奇的能力来自两大技术创新:"世界缓存" 和 "几何反馈循环"。简单说,"世界缓存" 就像 AI 的空间日记本,会把生成的每帧画面转换成 3D 点云数据存起来,相当于在虚拟空间里建立坐标系统。当用户控制摄像机移动时,系统会从新视角把这些 3D 点重新投影成 2D 画面,确保新生成的内容和之前的场景严丝合缝。而 "几何反馈循环" 则像个严格的校对员,每生成一帧就回头检查是否符合之前建立的空间规则,避免出现 "上一帧桌子在左边,下一帧突然到右边" 的荒诞情况。



腾讯技术团队用超过 10 万个视频片段训练这个模型,既有真实世界的录像,也有虚幻引擎生成的虚拟场景。他们开发了自动分析工具,能从视频中提取摄像机移动轨迹并计算每一帧的深度信息,省去了人工标记的巨大工作量。这种训练方式让 Voyager 能同时输出 RGB 彩色视频和对应的深度数据,就像给视频每一像素点都标上了 "距离摄像机多远" 的信息,这也是它能直接用于 3D 重建的关键。



不过这个 AI 还不是完美的。当你控制摄像机做 360 度旋转时,它偶尔会 "犯迷糊"—— 比如一开始在画面左侧的椅子,转一圈后可能出现在右侧。这是因为模式匹配的微小误差会随着帧数累积,最终超出几何约束的修正范围。腾讯工程师解释:"它现在是靠规律推演空间,而不是真正 ' 理解 ' 空间,就像我们凭经验猜迷宫路线,走太远还是会迷路。"

二、产业定位:在 AI 生成与 3D 建模之间架桥

当下 AI 世界生成模型呈现 "三足鼎立" 之势。谷歌 Genie 3 擅长文本生成交互式世界,但只面向 AI 智能体训练且未开源;昆仑万维 Matrix - Game 2.0 主打游戏场景实时交互,能以 25 帧 / 秒的速度生成分钟级视频;而 Voyager 则专注于 "生成即重建",凭借 RGB - 深度双输出的独特优势,在影视制作和 3D 重建领域开辟了新赛道。




在影视前期可视化领域,Voyager 已经展现出巨大潜力。传统流程中,导演需要先画分镜,再交给建模团队制作简易 3D 场景才能预览镜头效果,整个过程可能需要数周。现在用 Voyager,只需一张场景概念图,就能实时调整摄像机路径,几分钟内生成多版漫游视频供选择,大大缩短了前期创意验证的周期。独立动画师小林感叹:"以前没钱做 3D 预演只能靠想象,现在用这个工具能快速验证镜头想法,创作自由度提高太多了。"



建筑行业也迎来效率革新。设计师可以把建筑效果图导入模型,生成带深度信息的漫游视频,这些数据能直接转换为 3D 点云用于初步测量和空间分析。某建筑事务所负责人透露:"我们用 Voyager 测试了一个办公楼大厅设计,生成的 3D 点云与 CAD 模型的误差在 5% 以内,足以满足前期方案沟通需求,省去了专门制作漫游动画的成本。"



游戏开发则受益于快速原型制作。虽然 Voyager 短期内还无法替代专业游戏引擎 —— 它生成的是视频而非可交互场景,但开发者可以用它快速验证关卡设计的视觉效果和空间逻辑。腾讯游戏技术总监表示:"在立项阶段,我们用 Voyager 把 2D 概念图转换成 3D 漫游视频,能更早发现空间布局问题,比传统流程节省 30% 以上的原型制作时间。"



斯坦福大学的 WorldScore 基准测试给了 Voyager 充分肯定,其 77.62 的综合得分位居榜首,尤其在视频生成质量和 3D 重建精度两项指标上表现突出。这个评分体系从空间一致性、视角合理性等多个维度评估 AI 的世界生成能力,高分意味着模型生成的虚拟世界更接近真实物理规律。

三、现实瓶颈:60GB 显存门槛与地域限制

要体验这个黑科技可没那么容易,Voyager 对硬件的要求相当苛刻。生成 540p 分辨率的视频至少需要 60GB GPU 显存,腾讯推荐使用 80GB 显存的专业显卡才能获得流畅体验。这意味着普通游戏显卡根本无法运行,必须配备英伟达 A100 这类数据中心级显卡,单卡成本高达数万元,大大限制了个人开发者的使用门槛。



计算成本同样惊人。生成一段 10 秒的视频,在 80GB 显存显卡上需要约 5 分钟,电费和硬件折旧成本让小团队望而却步。某创业公司技术负责人算了笔账:"如果每天生成 100 段测试视频,光显卡租金就要几千元,这还没算数据存储和带宽成本。" 这种高成本导致 Voyager 目前更适合大企业或科研机构使用,离普通用户 "即点即用" 还有距离。



地域限制则引发了合规争议。和腾讯其他混元模型一样,Voyager 明确禁止在欧盟、英国和韩国使用。业内人士分析,这可能与这些地区严格的数据隐私法规有关,尤其是欧盟的 GDPR 对 AI 模型训练数据和输出内容有严格限制。但这种限制也让欧洲开发者错失了技术红利,某德国 AI 实验室研究员无奈表示:"我们只能通过美国同事间接测试模型,开源技术却不能自由使用,这违背了开源精神。"




商业使用也有明确约束。每月活跃用户超过 1 亿的商业部署需要获得腾讯单独许可,这意味着大型平台若想集成 Voyager 功能,必须经过腾讯审批。这种 "开源但有限制" 的模式引发争议,支持者认为这能防止技术被滥用,反对者则认为阻碍了创新扩散。开源社区知名开发者老王评论:"60GB 显存已经把大部分人挡在门外,再加上用户量限制,这开源多少有点 ' 半遮半掩 '。"

四、空间智能时代:AI 理解物理世界的关键一步

Voyager 的发布标志着 AI 从 "平面创作" 迈向 "空间理解" 的重要突破。回顾 AI 生成技术的发展,从文本生成图片的 DALL・E,到视频生成的 Sora,再到如今能处理空间关系的 Voyager,每一步都在缩小虚拟与现实的差距。腾讯混元团队负责人表示:"空间智能是元宇宙、具身智能的基础,我们希望通过开源让更多人参与这项技术的进化。"



这款模型的技术路径也为行业提供了新思路。通过将 2D 生成与 3D 几何约束结合,Voyager 在不直接生成 3D 模型的情况下实现了近似 3D 的效果,巧妙避开了纯 3D 生成的数据稀缺难题。上海科技大学计算机系教授分析:"直接生成 3D 模型需要海量标注数据,而 Voyager 这种 '2D 生成 + 3D 约束 ' 的路线更务实,在当前阶段更易落地。"



未来应用场景还将持续拓展。在虚拟现实领域,Voyager 生成的 3D 点云可快速构建轻量化虚拟环境;在机器人训练中,它能生成多样化场景数据供智能体学习空间导航;甚至在考古领域,一张文物照片就能生成可漫游的 3D 模型,辅助研究人员进行远程分析。腾讯已经计划在混元生态中整合更多空间智能工具,形成从 2D 图像到 3D 世界的完整生成链条。



当然,技术演进仍需时间。目前 Voyager 的误差累积问题、硬件门槛问题、许可限制问题都有待解决。但不可否认的是,它已经推开了 AI 理解物理空间的一扇门。当 AI 能真正 "记住" 并 "理解" 三维世界的规律,人类的创造力将获得前所未有的解放 —— 设计师可以专注创意而非技术实现,普通人也能轻松创建自己的虚拟世界。



从单张图片到可漫游的 3D 空间,Voyager 迈出的这一小步,或许正是 AI 生成技术走向实用化的一大步。尽管还有诸多限制,但它展现的技术潜力已经让我们看到:一个人人都能创建虚拟世界的时代,正在加速到来。

展开阅读全文

更新时间:2025-09-06

标签:科技   腾讯   序列   模型   视频   空间   技术   世界   场景   数据   显存   智能

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top