发布SoulX-LiveAct Soul 创始人张璐率团队破长视频生成稳定性魔咒

近日,Soul 创始人张璐率团队正式发布了开源模型SoulX-LiveAct。这一全新的实时数字人生成方案,通过创新性地引入 Neighbor Forcing(同扩散步对齐的自回归条件传播)与 ConvKV Memory(KV 记忆压缩)两大核心技术,成功攻克了长时视频生成的稳定性难题,推动 AR diffusion 技术实现了从“能流式”到“可真正长时稳定地实时流式”的关键跨越。

当前,AI 技术在数字人直播、视频播客、实时互动等场景的应用持续普及,数字人行业的应用层对模型的核心需求,也从最初的 “能生成” 逐步转向 “能长期稳定生成”。不过在实际落地过程中,数字人生成环节始终存在一个核心难题:当视频生成时长拉长至分钟甚至小时级别时,画面的稳定性和一致性会显著下降,身份漂移、细节丢失、画面闪烁等问题频发,同时实时推理成本也会随时长增加而上升。那么,如何让数字人视频在流式实时推理模式下,实现小时级乃至无限长度的生成,同时保证身份一致、细节稳定、口型精准?此次开源的 SoulX-LiveAct 给出了答案 —— 该方案仅需 2 张 H100/H200 显卡,就能实现 20 FPS 的实时流式推理,还支持输入图像、音频和指令驱动,生成的数字人视频表情生动、情绪可控,且具备丰富的全身动作。Soul AI 团队持续开源不同技术路线的模型,为开源社区和行业提供了差异化的实时数字人解决方案,精准覆盖了不同硬件条件、不同应用场景下开发者的实际需求。

Soul 创始人张璐率团队正式发布的开源模型SoulX-LiveAct为什么能够表现如此出色?这要从SoulX-LiveAct 三大亮点说起。恒定显存方面,过去的 AR diffusion 往往依赖 KV cache 来记忆历史信息,但缓存会随着视频长度线性增长 —— 一旦视频时长拉长,要么出现爆显存的问题,要么不得不丢弃历史信息,进而导致画面稳定性彻底崩掉。SoulX-LiveAct 从 “条件传播方式” 和 “历史记忆管理” 两个核心层面,精准破解了这一行业瓶颈,其创新机制让系统既能稳定 “承载” 长时历史信息,又不会因缓存膨胀拖慢推理速度,从而在技术机制上,真正具备了小时级甚至更长时长的数字人视频持续生成能力;在实时吞吐方面,在 512×512 分辨率下,SoulX-LiveAct 仅需 2 张 H100/H200 即可达到 20 FPS 的实时流式推理能力,端到端延迟约 0.94s。同时,单帧计算成本降低到 27.2 TFLOPs / frame,在追求实时的条件下显著减轻算力压力,为线上部署提供更现实的成本方案;在长时一致方面,长视频最容易“翻车”的不是第一分钟,而是第十分钟、第三十分钟:常见现象包括脸漂、发型/衣纹漂移、饰品忽隐忽现,甚至口型逐步失配。在报告的长时对比中,基线方法普遍出现不同程度的身份漂移与细节不稳定;而 SoulX-LiveAct 能在更长时间窗口内保持身份一致性与关键细节持续稳定(如配饰与衣物纹理不“掉件”)。

依托出色的模型表现,Soul 创始人张璐率团队正式发布的SoulX-LiveAct 有望快速落地于“长期在线” 数字人直播间、AI 教育、智慧柜员、知识付费、播客录制、开放世界互动等多个核心场景,并完美适配数字空间中长时间在线、兼具情绪表达与动作呈现的角色交互需求,为各行各业的数字人应用落地提供高效稳定的技术支撑。

展开阅读全文

更新时间:2026-04-10

标签:科技   创始人   稳定性   视频   张璐   实时   数字   模型   稳定   在线   精准   技术   细节   核心

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号

Top