吊打pika!Google推出时空扩散模型的新型ai模型Lumiere

来源:Lumiere

Lumiere创建的视频展示了逼真的运动,甚至可以使用图像和其他视频作为输入来改善结果。在题为《用于视频生成的时空扩散模型》的论文中揭示,Lumiere的工作方式与现有的视频生成模型不同。它一次性生成视频的时间持续,而现有的模型则通过合成关键帧,然后进行时间超分辨率。


简单来说,Lumiere关注图像中物体的运动,而以前的系统则通过已经发生运动的关键帧进行拼接视频。

该模型能够生成最高80帧的视频。相比之下,Stability的Stable Video Diffusion分别为14和25帧。帧数越多,视频的运动就越流畅。

Lumiere文生视频

1.文生视频

Pika、Meta和Runway等公司的一样,Lumiere同样具备文生视频功能,从动图可看到运动相对较为流畅自然。

lumiere图生视频

2.图生视频

lumiere允许用户上传一张图片并输入不同的指令让静态的图片直接生成视频,比如让一幅画里的女孩笑起来,让云朵飘动。

lumiere程序化生成

3.程式化生成

lumiere可以根据用户上传的图片作为参考元素,根据图片的特征结合提示词去生成和原图片有相似元素的视频

lumiere图片的局部动态化

3.局部动态

lumiere支持针对图片的特定元素或部分区域进行视频生成,比如让火焰跃动,让烟雾翻滚,只需要一个指令“animate”。

lumiere视频编辑

4.视频编辑

lumiere可以对上传的视频进行局部编辑,比如给视频中的人直接替换一套新衣服,给蜗牛的壳加上不同的花纹色彩。

据Google团队称,Lumiere在各种测试中均优于Pika、Meta和Runway等公司的竞争对手视频生成模型,包括零样本试验。

研究人员还声称,Lumiere的输出可以用于内容创作任务和视频编辑,包括使用经过微调的文本到图像模型权重进行视频修补和风格化生成(模仿所展示的艺术风格)。

为了达到这个目的,Lumiere利用了一种新的架构,称为时空U-Net。这通过模型的单次传递一次性生成整个视频的时间持续。

Google团队写道,这种新颖的方法提高了输出的一致性。论文中写道:“通过部署空间和(重要的是)时间的降采样和升采样,并利用预训练的文本到图像扩散模型,我们的模型通过在多个时空尺度上处理来直接生成全帧率、低分辨率的视频。”

Lumiere项目的目标是创建一个系统,使初学者更容易创建视频内容。

然而,论文承认了或许存在滥用的风险,特别是警告Lumiere等模型可能被用来创建虚假或有害的内容。

“我们认为,开发和应用检测偏见和恶意用例的工具是至关重要的,以确保安全和公平的使用,”论文中写道。

截至撰写本文时,Google尚未向公众提供该模型。但是,您可以在GitHub上的展示页面上探索各种示例生成。

展开阅读全文

页面更新:2024-02-14

标签:模型   时空   局部   图像   元素   上传   时间   论文   图片   视频

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top