阿里通义开源新模型,指定首尾图片可生成延时摄影、变身等特效视频

视频加载中...

潮新闻客户端 记者 张云山

4月17日晚,阿里开源通义万相首尾帧生视频14B模型,这是业界首个开源的百亿级参数规模首尾帧生视频模型,它可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的720p高清视频,满足延时摄影、变身等更可控、更定制化的视频生成需求。用户可在通义万相官网直接免费体验该模型,或在GitHub、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。

阿里开源通义万相首尾帧生视频14B模型

首尾帧生视频比文生视频、单图生视频的可控性更高,是最受AI视频创作者欢迎的功能之一,但这类模型的训练难度较大,对模型的指令遵循、视频内容与首尾帧一致性、视频过渡自然流畅性等均有高要求。

据介绍,基于现有的Wan2.1文生视频基础模型架构,通义万相首尾帧生视频模型进一步引入了额外的条件控制机制,通过该机制可实现流畅且精准的首尾帧变换;在训练阶段,团队还构建了专门用于首尾帧模式的训练数据,同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略,这些策略提升了模型训练和生成效率,也保障了模型具备高分辨率视频生成的效果。

基于该模型,用户可完成更复杂、更个性化的视频生成任务,可以实现同一主体的特效变化、不同场景的运镜控制等视频生成。例如,上传相同位置不同时间段的两张外景图片,输入一段提示词,通义万相首尾帧生成模型即可生成一段四季交替变化或者昼夜变化的延时摄影效果视频;上传两张不同画面的场景,还可通过推进、拉镜、摇镜等运镜控制衔接画面,在保证视频和预设图片一致性前提下,同时让视频拥有更丰富的镜头。

今年2月,通义万相Wan2.1文生视频和图生视频模型开源后,迅速登上Hugging Face模型热榜和模型空间榜棒首,其在GitHub上已斩获超10k star,模型下载量超过220万,是开源社区热度最高的大模型之一。

通义万相首尾帧生视频

(图源受访者)

“转载请注明出处”

展开阅读全文

更新时间:2025-04-19

标签:首尾   阿里   下载量   模型   图片   视频   模块   特效   场景   画面   用户   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top